"Error de Northbridge (nodo 0): error de ECC en el directorio del filtro de sonda"

Recibí un correo electrónico de un usuario preocupado de que los siguientes errores en uno de sus servidores indiquen un problema grave. El problema es que los errores a continuación son todo lo que tengo que seguir. Por lo general me considero un Googler decente, pero en este caso sólo puedo encontrar uno de otro incidente en el que los usuarios encontraron este error con respecto a "directorio de filtro de la sonda":

[1044 snapshots @ abc]$
Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: CPU:0 
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]:       MC4_ADDR: 0x0000000000010f40

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the 
Probe Filter directory.

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN

Por lo que puedo decir, esto solo sucedió una vez. Agitar los registros en busca de otros errores de hardware no es más que este incidente.

La publicación del foro a la que me refiero anteriormente simplemente termina básicamente diciéndole al usuario que no se preocupe si solo sucedió una vez y no causó problemas fatales. Este es el mismo consejo que recibí de mis colegas, quienes también mencionaron que hay demasiadas variables (es decir, ¿qué estaba funcionando a las 2:50 am del 8 de septiembre?).

Sin embargo, este usuario quiere estar seguro de que algo no está mal con su sistema. ¿Qué pueden indicar o relacionar los errores anteriores? ¿Qué es el directorio "Filtro de sonda"? ¿Qué pruebas puedo ejecutar para tranquilizar al usuario de que esto no marca su máquina por una muerte inminente?

La distribución de Linux de la máquina es Red Hat Enterprise Linux Server versión 6.4 (Santiago).

linux-kernel hardware ecc

— CptSupermrkt
fuente

Esto explica lo que es: developer.amd.com/community/blog/ht-assist-what-is-it

— derobert

Whoa, tienes razón! Ctrl + fd la página y encontré "HT Assist, o el filtro de sonda como a veces se llama". ¡Finalmente algún tipo de referencia al error / punto de partida! Tengo mucha lectura que hacer :)

— CptSupermrkt

@derobert que suena como una respuesta, ¿no?

— Braiam

@Braiam ese enlace solo explica qué es "filtro de sonda" ... no explica por qué OP obtendría un error de ECC allí, o si indica un problema real.

— derobert

No tengo una respuesta precisa, pero algo de esto es familiar. No sé qué es un directorio de filtro de sonda, pero CptSupermrkt lo explicó anteriormente.

En PCI, un Northbridge se conecta a la memoria y al procesador. Los errores de ECC están asociados con DRAM. Hay bits de código de corrección de errores almacenados junto con cada palabra. En las lecturas se verifican en las escrituras, se actualizan. Los errores de ECC son corregibles o no corregibles, lo que indica la capacidad de corregir un error utilizando los bits escritos. No corregible no indica que haya un error de hardware permanente. Esto puede suceder cuando la DRAM comienza a fallar.

Dado todo eso, esto parece un error transitorio. Puede intentar una prueba de memoria completa, pero es probable que no encuentre nada. Si la DRAM ha fallado, su única acción correctiva es reemplazarla.

— MikeLRoy
fuente