Descifrar mensajes continuos de syslog de mpt2sas

15

Resumen

He estado recibiendo estos mensajes crípticos en syslog desde que instalé un nuevo hardware y no puedo entender cuál es el problema, si es grave o qué hacer al respecto.

Son del nuevo SATA HBA y siguen un patrón. Recibiré varios del primer mensaje seguido de varios del segundo mensaje 5-30 segundos después. Vienen en blobs que se registran todos en el mismo segundo y la cantidad exacta de cada uno varía entre aproximadamente 2 y 35. Pueden transcurrir minutos u horas entre las apariciones de las entradas.

Ejemplo de los dos mensajes:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

Siempre es 0x31120303 seguido de 0x31110d01.

mpt2sas es el controlador para el adaptador de bus de host SATA que estoy usando, pero el contenido del error es demasiado críptico. No me dice cuál es el problema, con qué disco o puerto está o qué tan grave es.

Hardware

Supermicro X9SCL con un Xeon E3-1220 y 8GB de RAM.

HBA Supermicro AOC-USAS2-L8I SAS / SATA basado en LSI SAS2008 conectado a un conjunto de bandeja de disco Supermicro CSE-M35T-1B . Tiene tres Western Digital WD30EZRX y dos Segate ST3000DM001 conectados. Todas las unidades de 3 TB (exactamente el mismo número de sectores en realidad). No hay expansores de puerto en uso.

El HBA, las bandejas de disco y 4 de las unidades son nuevas. Uno de los WD30EZRX ha estado en funcionamiento durante meses, no tuvo problemas con él. Si se había conectado previamente al controlador Intel SATA integrado, lo movió a las bahías de unidades con esta nueva configuración.

Tuve problemas con la necesidad de reiniciar el HBA con frecuencia y obtener un rendimiento realmente horrible. Actualicé el firmware / bios a "Fase 12", la última versión disponible de Supermicro y cambié el tipo a TI (es decir, traspaso, de IR para incursión integrada ya que iba a usar toda incursión de software): 2008IT12.FW. Esa actualización solucionó todos los problemas iniciales y no comencé a recibir los mensajes anteriores hasta más tarde (ver más abajo).

Los primeros cuatro discos que agregué están todos en el primer puerto SFF-8087 (dividido en 4 cables SATA). El último disco que agregué está en el otro puerto, si eso importa.

El único otro disco del sistema contiene el sistema operativo y es un SSD Intel 80GB más antiguo conectado al controlador SATA integrado.

Software

Ubuntu 11.10 (onírico). Linux 3.0.0-14-server x86_64. Usando el controlador mpt2sas que viene con el sistema operativo.

Intentando construir una matriz RAID6 usando Linux md con esos cinco discos. Comenzó con una matriz degenerada de 3 discos, los dos Segates y una de las nuevas unidades WD. Esto fue rápido y salió muy bien, no hubo mensajes en los registros después de que hice la actualización del firmware. Mientras tanto, todavía estoy usando el viejo disco WD en el puerto 0 del mismo controlador.

Se agregó el otro disco WD nuevo a la matriz. La reconstrucción comenzó y ahora recibo esos mensajes en syslog periódicamente. No estoy seguro de cuánto tiempo se supone que toma agregar un disco a la matriz, pero el tiempo estimado (cat / proc / mdstat) varía de miles a decenas de miles de minutos, mucho más de lo que tomó los primeros 3 discos. Entiendo que los discos WD son mucho más lentos; Obtuve diferentes modelos para reducir las posibilidades de fallas múltiples en el disco, y esos fueron los dos modelos más baratos de 3TB.

Notas

SMART no informa ningún problema en ningún disco. No hay errores registrados en ningún disco y ninguna de las estadísticas de falla está cerca del umbral.

Los mensajes registrados solo comenzaron a aparecer después de agregar el último disco, lo que sugiere que uno puede estar teniendo un problema, pero no tengo nada más que lo señale.

Encontré un archivo de encabezado que parece corresponder a los mensajes de registro de este controlador. El primer mensaje parece ser un aborto (código 12) para un "subcódigo" 0303 que no está en la lista. El segundo mensaje es un reinicio (código 11) por una razón que tampoco está clara. Si pudiera determinar qué significan 0303 y 0d01, sería realmente útil.

Sé que 4 discos en un RAID6 de 5 discos es una matriz incompleta. Estoy planeando copiar el contenido del disco viejo al arreglo una vez que termine de integrar el 4to disco y luego agregar el disco viejo al arreglo también.

— Chris Smith
fuente

5

Probablemente su mejor apuesta sea un problema de hardware en algún lugar entre sus discos y hasta e incluyendo su controlador sas raid. Recomiendo probar:

Ejecute cualquier herramienta de diagnóstico de los proveedores si están disponibles
Verifique / vuelva a colocar / reemplace los cables
retire los componentes de hardware e intercambie el hardware en la cadena que conecta los discos a su controlador de incursión, incluido el controlador en sí (es decir, para usted, intente algo más que la incursión integrada de la placa base).

Tuve uno de dos Dell PowerEdge R515 idénticos con mensajes muy similares (registros que se llenan periódicamente con mensajes mpt2sas0, aunque no tengo los códigos numéricos exactos). El propio diagnóstico de arranque de Dell los detectó como "errores de hardware" y el reemplazo del plano posterior RAID sas resolvió el problema.

Cuando estaba investigando, no pude encontrar un recurso completo de lo que significan varios códigos de error mpt2sas0. Sospecho que incluso pueden ser específicos del proveedor de hardware (alguien que sepa más sobre SAS necesita confirmar o negar esto). Por lo tanto, sus códigos de error podrían significar algo muy diferente, pero si SMART está limpio, es difícil imaginar otras buenas razones para que mpt2sas0 informe códigos de error.

Estos errores pueden ser muy graves. Mi R515 funcionó aparentemente bien con estos mensajes durante una semana con una incursión 6 del software Ubuntu Linux de 12 discos, pero de repente expulsó los 12 discos de la matriz como rotos (!)

También en mi caso, el SMART para todos los discos estaba completamente limpio. Una buena comprobación es una prueba de autodiagnóstico inteligente: smartctl -t long /dev/sdXy luego verifique los resultados aproximadamente un día después con smartctl -l selftest /dev/sdX. Si todo está bien, la prueba debería decir Completedy la LBA_first_errcolumna debería estar vacía.

— Rickard Armiento
fuente

Nota: el controlador RAID (HBA realmente) ya es una tarjeta separada. El controlador SATA integrado funciona bien. Tengo un cable SFF-8087 de repuesto en orden, debería estar aquí mañana. Ese es mi principal sospechoso en este momento.

— Chris Smith

¡El mal cable era el problema! ¡Reemplacé ambos (dos puertos SFF) con algunos cables de mayor calidad y desde entonces no he tenido problemas! Estoy aceptando tu respuesta ya que es la más larga y sugiere un cable defectuoso. PD: definitivamente hice las pruebas SMART largas; sin problemas en ninguno de los discos.

— Chris Smith

Es bueno saber que has encontrado el problema. Gracias por aceptar.

— Rickard Armiento

Para mí es realmente extraño que encuentre este problema antes también solo en el caso de la plataforma Dell PowerEdge. El mismo resultado fue el problema con los cables ...

— Mazeryt

3

Wow, una pregunta difícil.

Esto parece indicar que 0x31120303 es un reinicio del bus debido a que uno de sus dispositivos está bajo una carga pesada. También dice que no necesita preocuparse por eso. (Jaja, sí, claro)

Esto indica que estos mensajes de registro están sucediendo porque uno de sus dispositivos está tardando demasiado en responder a los comandos. Esto dice lo mismo y también indica que ocurre bajo una carga pesada.

Si bien esta no es una respuesta completa, con suerte lo guiará en una dirección útil.

— Michael Hampton
fuente

Vi algunas de esas publicaciones, pero nunca pude encontrar el mensaje exacto que recibía. Resultó ser un mal cable SFF-8087-> SATA. ¡Gracias por la ayuda!

— Chris Smith

0

Esto significa que tiene algún error en el disco, es un disco SATA en un controlador SAS de LSI y, debido al error, se anularon todas las solicitudes pendientes.

En la mayoría de los casos, tiene un error medio en el disco que es el desencadenante de este error. Este error en sí mismo no significa un error medio y deberá verificar los registros para obtener otras sugerencias para encontrar cuál es el origen de la falla del disco original.

Versión un poco más elaborada en: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

— Baruch Even
fuente

Publicación interesante, gracias por compartir! SATA es un protocolo horrible, pero los discos son baratos y hacen lo que necesito. El mensaje no ha vuelto a aparecer desde que reemplacé el cable defectuoso.

— Chris Smith

1

Puede encontrar más decodificación de LSI Loginfo a través de una utilidad que creé para descifrarlo: blog.disksurvey.org/blog/2014/08/10/decoding-lsi-loginfo-codes

— Baruch Incluso el