¿Cómo puedo encontrar qué memoria tiene un error CE?


12

En /var/log/kern.log:

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

Este es el edacregistro, uno de la memoria tiene ceerror.

He leído edac doc

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

y encuentra el canal de error:

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

y debería ser mc0/csrow0/ch2, como el documento, el DIMM debería ser DIMM_C0, y puede ser encontrado por dmidecode:

Pero no puedo encontrar este DIMM, así que no sé qué memoria tiene problemas:

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

Hay 12 ranuras y 9 ranuras tienen memoria.

Entonces, ¿cómo puedo saber qué memoria tiene problemas?


Suplemento:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6

¿Qué tipo de servidor es este? Fabricante y modelo de servidor.
ewwhite

@ewwhite, hola, actualicé la pregunta con información del sistema.
Tanky Woo

¿Qué sistema operativo estás ejecutando?
ewwhite

@ewwhite OS es Ubuntu 12.04, Kernel es3.10.20
Tanky Woo

Oh, lo siento ... Ubuntu no es realmente compatible con este hardware , por lo que está perdiendo la capacidad de monitorearlo correctamente al no usar RHEL / CentOS / Debian / SuSE ...
ewwhite

Respuestas:


8

Su problema DIMM es probable: Locator: PROC 1 DIMM 5F

CPU # 0 Canal # 2_DIMM # ​​0 significa:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

Editar:

Al hacer preguntas, siempre es mejor obtener más información ... Tener el fabricante y el modelo del servidor habría simplificado esto:

Aquí está el diagrama de memoria de las especificaciones rápidas HP ProLiant DL180 G6 :

ingrese la descripción de la imagen aquí

Mi sugerencia de que el DIMM en la ranura de CPU # 1 es correcto ... Pero este es el hardware de HP. ¡No deberías necesitar adivinar!

Debería utilizar los agentes de administración de HP, ya que pueden alertar y proporcionar detalles específicos de la plataforma sobre el estado y el estado del hardware ...

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

gracias, ¿hay algún documento publicado?
Tanky Woo

@TankyWoo Sí, ver arriba.
ewwhite

PROC1 DIMM 5Fno tiene memoria ¿Entonces quiere decir que la ranura no está realmente confirmada? ¿Debo agregar un hp deb mirror e instalar hpamsclipara obtener el DIMM correcto?
Tanky Woo

Tengo instalar hp-health, y Statuses lo N/Amismo que su salida pegada.
Tanky Woo

Ejecute hplog -vpara verificar las entradas en el registro de HP IML.
ewwhite
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.