Digamos que ejecuto un cálculo de supercomputadora en 100k núcleos durante 4 horas en http://www.nersc.gov/users/computational-systems/edison/configuration , intercambiando alrededor de 4 PB de datos a través de la red y realizando aproximadamente 4 TB de I / O. El cálculo es todo entero, por lo que los resultados son correctos o incorrectos (sin errores numéricos intermedios).
Suponiendo que el código es correcto, me gustaría estimar la probabilidad de que el cálculo sea incorrecto debido a una falla de hardware. ¿Cuál es una buena manera de hacer esto? ¿Existen buenas fuentes para los números requeridos para hacer tal estimación?