Recibí un correo electrónico de un usuario preocupado de que los siguientes errores en uno de sus servidores indiquen un problema grave. El problema es que los errores a continuación son todo lo que tengo que seguir. Por lo general me considero un Googler decente, pero en este caso sólo puedo encontrar uno de otro incidente en el que los usuarios encontraron este error con respecto a "directorio de filtro de la sonda":
[1044 snapshots @ abc]$
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: CPU:0
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: MC4_ADDR: 0x0000000000010f40
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the
Probe Filter directory.
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
Por lo que puedo decir, esto solo sucedió una vez. Agitar los registros en busca de otros errores de hardware no es más que este incidente.
La publicación del foro a la que me refiero anteriormente simplemente termina básicamente diciéndole al usuario que no se preocupe si solo sucedió una vez y no causó problemas fatales. Este es el mismo consejo que recibí de mis colegas, quienes también mencionaron que hay demasiadas variables (es decir, ¿qué estaba funcionando a las 2:50 am del 8 de septiembre?).
Sin embargo, este usuario quiere estar seguro de que algo no está mal con su sistema. ¿Qué pueden indicar o relacionar los errores anteriores? ¿Qué es el directorio "Filtro de sonda"? ¿Qué pruebas puedo ejecutar para tranquilizar al usuario de que esto no marca su máquina por una muerte inminente?
La distribución de Linux de la máquina es Red Hat Enterprise Linux Server versión 6.4 (Santiago).