Quiero comparar la confiabilidad de diferentes sistemas RAID con unidades de consumo (URE / bit = 1e-14) o empresariales (URE / bit = 1e-15). La fórmula para tener la probabilidad de éxito de una reconstrucción (ignorando los problemas mecánicos, que tendré en cuenta más adelante) es simple:
error_probability = 1 - (1-per_bit_error_rate) ^ bit_read
Es importante recordar que esta es la probabilidad de obtener AL MENOS una URE, no necesariamente solo una.
Supongamos que queremos un espacio útil de 6 TB. Podemos conseguirlo con:
RAID1 con discos 1 + 1 de 6 TB cada uno. Durante la reconstrucción, leemos 1 disco de 6TB y el riesgo es: 1- (1-1e-14) ^ (6e12 * 8) = 38% para unidades de consumo o 4.7% para unidades empresariales.
RAID10 con 2 + 2 discos de 3 TB cada uno. Durante la reconstrucción, volvemos a leer solo 1 disco de 3 TB (¡el que está emparejado con el que falló!) Y el riesgo es menor: 1- (1-1e-14) ^ (3e12 * 8) = 21% para el consumidor o 2.4% para Unidades empresariales.
RAID5 / RAID Z1 con 2 + 1 discos de 3TB cada uno. Durante la reconstrucción, leemos 2 discos de 3 TB cada uno y el riesgo es: 1- (1-1e-14) ^ (2 * 3e12 * 8) = 38% para unidades de consumo o 4.7% o empresariales.
RAID5 / RAID Z1 con 3 + 1 discos de 2 TB cada uno (a menudo utilizado por usuarios de productos SOHO como Synologys). Durante la reconstrucción, leemos 3 discos de 2TB cada uno y el riesgo es: 1- (1-1e-14) ^ (3 * 2e12 * 8) = 38% para el consumidor o 4.7% o unidades empresariales.
Calcular el error para la tolerancia de disco único es fácil, más difícil es calcular la probabilidad con sistemas tolerantes a fallas de discos múltiples (RAID6 / Z2, RAIDZ3).
Si solo se usa el primer disco para la reconstrucción y el segundo se vuelve a leer desde el principio en el caso de una URE, entonces la probabilidad de error es la calculada por encima de la raíz cuadrada (14.5% para el consumidor RAID5 2 + 1, 4.5% para el consumidor RAID1 1 + 2). Sin embargo, supongo (¡al menos en ZFS que tiene sumas de comprobación completas!) Que la segunda paridad / disco disponible se lee solo donde es necesario, lo que significa que solo se necesitan pocos sectores: ¿cuántas URE pueden suceder en el primer disco? no muchos, de lo contrario la probabilidad de error para los sistemas de tolerancia de disco único se dispararía aún más de lo que calculé.
Si estoy en lo correcto, un segundo disco de paridad prácticamente reduciría el riesgo a valores extremadamente bajos.
Dejando a un lado la pregunta, es importante tener en cuenta que los fabricantes aumentan la probabilidad de URE para unidades de clase de consumidor por razones de marketing (venden más unidades de clase empresarial), por lo tanto, se espera que incluso los HDD de clase de consumidor logren 1E-15 URE / bit de lectura .
Algunos datos: http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/
Por lo tanto, los valores que proporcioné entre paréntesis (unidades empresariales) también se aplican de manera realista a las unidades de consumo. Y las unidades empresariales reales tienen una fiabilidad aún mayor (URE / bit = 1e-16).
En cuanto a la probabilidad de fallas mecánicas, son proporcionales al número de discos y proporcionales al tiempo requerido para la reconstrucción.