Tenemos un servidor Graphite para recopilar datos a través de collectd, statsd, JMXTrans ... Desde hace unos días, con frecuencia tenemos agujeros en nuestros datos. Examinando los datos que aún tenemos, podemos ver un aumento en el tamaño de la caché de carbono (de 50K a 4M). No vemos un aumento en el número de métricas recopiladas (metricsReceived es estable en alrededor de 300K). Tenemos un aumento en el número de consultas de 1000 a 1500 en promedio.
Curiosamente, el uso de cpu disminuye ligeramente del 100% (tenemos 4 CPU) al 50% cuando aumenta el tamaño de la caché.
Curiosamente, vemos un aumento en el número de octetos leídos del disco, y una disminución en el número de octetos escritos.
Tenemos configuración de carbono principalmente con valores predeterminados:
- MAX_CACHE_SIZE = inf
- MAX_UPDATES_PER_SECOND = 5000
- MAX_CREATES_PER_MINUTE = 2000
Obviamente, algo ha cambiado en nuestro sistema, pero no entendemos qué, ni cómo podemos encontrar esta causa ...
Alguna ayuda ?