Sí, es un problema, principalmente a medida que aumentan los tamaños de las unidades. La mayoría de las unidades SATA tienen una tasa de URE (error de lectura no corregible) de 10 ^ 14. O por cada 12 TB de datos leídos estadísticamente, el proveedor de la unidad dice que la unidad devolverá un error de lectura (normalmente puede buscarlos en las hojas de especificaciones de la unidad). La unidad continuará funcionando bien para todas las demás partes de la unidad. Las unidades Enterprise FC y SCSI generalmente tienen una tasa de URE de 10 ^ 15 (120 TB) junto con una pequeña cantidad de unidades SATA que ayudan a reducirla.
Nunca he visto que los discos dejen de girar exactamente al mismo tiempo, pero he tenido un problema de volumen de incursión5 (hace 5 años con unidades PATA de consumo de 5400 RPM). La unidad falla, se marca como muerta y se produce una reconstrucción en la unidad de repuesto. El problema es que durante la reconstrucción una segunda unidad no puede leer ese pequeño bloque de datos. Dependiendo de quién realice la incursión, todo el volumen puede estar muerto o solo ese pequeño bloque puede estar muerto. Suponiendo que es solo que un bloque está muerto, si intenta leerlo, obtendrá un error, pero si escribe en él, la unidad lo reasignará a otra ubicación.
Hay varios métodos para protegerse contra: raid6 (o equivalente) que protege contra la falla del doble disco es mejor, los adicionales son un sistema de archivos compatible con URE como ZFS, que utiliza grupos de ataque más pequeños para que estadísticamente tenga menos posibilidades de golpear la unidad URE límites (duplicar unidades grandes o raid5 unidades más pequeñas), el fregado de disco y SMART también ayuda, pero en realidad no es una protección en sí misma, sino que se usa además de uno de los métodos anteriores.
Administro cerca de 3000 husos en matrices, y las matrices están fregando constantemente las unidades en busca de URE latentes. Y recibo un flujo bastante constante de ellos (cada vez que encuentra uno, lo soluciona antes del fallo de la unidad y me alerta), si estaba usando raid5 en lugar de raid6 y una de las unidades se apaga por completo ... estar en problemas si llega a ciertos lugares.