He notado un comportamiento extraño en un clúster HA de 2 servidores y esperaba que alguien pudiera confirmar mi sospecha, o tal vez ofrecer alguna otra explicación ... Aquí está mi configuración:
- Una instalación de 2 servidores SQL 2012 SP1
- SQL AlwaysOn HA se ha habilitado para algunas bases de datos
- CPUs son 2.4GHz, 4 núcleos
- La RAM es de 34 GB (es una instancia de AWS, de ahí el número impar)
- La utilización de recursos es relativamente baja: cada servidor tiene más de 14 GB de memoria libre, y SQL no está limitado a la cantidad de memoria que debe usar
- El tiempo de acceso al disco está bien: rara vez supera los 15 ms / lectura o escritura
- Las bases de datos no son grandes: 1 GB, 1,5 GB, 7,5 GB
- El proceso del servidor SQL utiliza bytes privados de 16 GB, conjunto de trabajo de 15 GB
En general, no se observan problemas de recursos. Ahora para la parte extraña. SQL no se reinicia (el proceso se ha estado ejecutando durante casi 6 meses), pero parece que cada ~ 50 días, el contador de expectativa de vida de la página cae a (casi) 0. Hasta ese punto, sube de manera constante, sin caídas. Aquí hay un gráfico de rendimiento:
Cuando miro los datos del contador (no tengo el número exacto, solo una agregación por hora) parece que el valor del contador PLE alcanzó aproximadamente 4,295,000 segundos (aproximadamente 50 días) cada vez (al menos cada vez que tengo datos).
Mi loca teoría es que el número PLE se mantiene en milisegundos como un int largo sin signo (que tiene un límite de 4,294,967,295) y a los 49,71 días se restablece, ya sea por diseño o debido a un error. Esto explicaría el comportamiento de los dos servidores y el patrón idéntico que tienen. O podría ser algo totalmente diferente y simplemente no tengo ningún sentido. :)
¿Alguien ha visto algo así o puede explicar este comportamiento?
PD: vi esta publicación, pero mi caso parece un poco diferente.
PPS Este es un reenvío: originalmente lo publiqué aquí , pero se me informó que la audiencia aquí es más apropiada.
¡Gracias!