¿Qué es un servidor no crítico? ¿Uno que puede fallar?
La RAM ECC es fundamental cuando la fiabilidad de la memoria es fundamental.
Dos cosas crecen con el crecimiento de los tamaños de memoria:
- la dependencia del software en la memoria, esp. software de servidor (por ejemplo, almacenamiento en caché)
- la probabilidad de error de memoria (p = num_bits * p_bit_failure)
Esta presentación de inteligencia sobre ECC informa estos hechos:
- La tasa promedio de error de memoria para un servidor con 4 GB de memoria funcionando 24x7 es 150 veces al año
- ~ 4000 errores corregibles por módulo de memoria por año
- El overclocking y la antigüedad del sistema aumentan enormemente las tasas de falla
- Las fallas recurrentes son comunes y ocurren rápidamente (el 97% ocurre dentro de los 10 días posteriores a la primera falla) => efecto de avalancha
- Para un servidor ECC con una vida útil de 3 a 5 años, la posibilidad de falla del sistema de error de memoria no corregible es inferior al 0.001%
Otra investigación reciente realizada por WISC muestra que ECC es esencial para estos sistemas ZFS:
ZFS no tiene precauciones para la corrupción de la memoria: los bloques de datos defectuosos se devuelven al usuario o se escriben en el disco, las operaciones del sistema de archivos fallan y muchas veces todo el sistema se bloquea.
Es importante tener en cuenta que otros sistemas de archivos son tan sensibles a esta forma de corrupción de datos como lo es ZFS.
ECC es lo que le evita encontrarse con estos problemas, cuando es posible, y en casos desastrosos, lo que le advierte sobre esto antes de que sea demasiado tarde.