¿Por qué la unidad Hitachi HDS5C3020 no particionada comienza a consumir un 50% más de energía 15 minutos después del arranque?


19

En un sistema Debian 6.0.6 hay 74 unidades de unidades Toshiba DT01ABA200 de 2 TB. Estas unidades se identifican como unidades Hitachi HDS5C3020BLE630 que ejecutan la revisión de firmware MZ4OAAB0. 64 unidades conectadas a través de tarjetas de expansión HP SAS a un controlador SAS LSI 2008, otras 5 unidades están conectadas directamente a la placa base, 4 unidades están conectadas a un controlador PCI basado en Sil y la última unidad solo tiene alimentación y no tiene ningún cable de datos conectado. El controlador LSI y la tarjeta Sil de su BIOS integrado están desactivados y los módulos mpt2sas y sata_sil se eliminan del Linux debian 2.6.32-5-amd64 # 1 SMP dom 23 de septiembre 10:07:46 UTC 2012 x86_64 kernel GNU / Linux. El módulo mpt2sas se carga después del arranque utilizando un comando modprobe en /etc/rc.local. Estas 74 unidades no están particionadas, ni formateadas ni montadas.

El sistema consume:

  • con 0 unidades : 70,6 - 70,9 vatios (también 15 minutos después del arranque);
  • con 74 unidades : 330 - 360 vatios, justo después del arranque (es equivalente a 3.5 - 3.9W por unidad en estado inactivo);
  • con 74 unidades : 420 - 466 vatios, cada vez en el minuto 15 de tiempo de actividad (es equivalente a 4.7 - 5.3W por unidad en estado inactivo).

La especificación de la unidad enumera 4.7W como lectura / escritura y 3.3W como consumo de energía inactivo.

El aumento del consumo de energía es muy probable en la línea de 5V, porque después de aproximadamente 1 minuto una "protección contra sobrecorriente" (OCP) de la fuente de alimentación (PSU) corta la corriente. La fuente de alimentación utilizada es un modelo de riel único con un OCP de> 122A en la línea de 12V y> 55A en la línea de 5V.

Regresión:

  • No importa si la unidad tiene el valor APM configurado como deshabilitado o 1 (ahorro máximo de energía).
  • El sistema operativo no registra actividad de lectura / escritura en /proc/diskstats. Los valores allí son idénticos (28 operaciones de lectura, 0 operaciones de escritura) como inmediatamente después de la operación modprobe.
  • No puedo probar lo que sucede al arrancar en la placa base, es BIOS, para excluir cualquier intervención del sistema operativo, porque la placa base Super Micro X8SI6-F con firmware 06/27/12 tiene un error que lee incorrectamente una temperatura del sensor de CPU de +74.0 C como " Alto "en modo BIOS, y apaga la alimentación después de 1 minuto.

¿Qué podría estar causando la actividad de lectura / escritura de la unidad en todas las unidades en el minuto 15 después del arranque y cómo evitar que suceda?


Simplemente curioso ... ¿Qué tipo de sistema es este? ¿Sistema de respaldo? Todo el software RAID?
ewwhite

Actualmente solo prueba, destinado al almacenamiento de respaldo sin ningún RAID. La redundancia será suministrada por servidores secundarios y terciarios opcionales.
Pro Backup

@ewwhite me recuerda a las vainas Backblaze. Alguien tuvo que mencionar ese nombre.
Dmitri Chubarov

@Dmitri Chubarov Es como una unidad de almacenamiento Backblaze, pero sin multiplicadores de puertos SATA, 5U de altura, sin RAID, 74 en lugar de 45 unidades, una sola fuente de alimentación, solo 2.0 vatios de consumo de energía para enfriamiento, y cuando todas las unidades están inactivas con un diferencia de temperatura de 6 grados entre el disco más frío y el más cálido.
Pro Backup

Respuestas:


20

Suena muy parecido a que las unidades están haciendo un lavado SMART (prueba automática fuera de línea).

smartctl -a /dev/hdx

debe confirmar la configuración con:

Auto Offline Data Collection: Enabled.

Deshabilitar con:

smartctl --offlineauto=off /dev/hdx

Podría ser otra cosa también ...


smartctl --offlineauto=offHizo el truco. Al menos durante 32 minutos, ya no hay grandes aumentos en el consumo de energía que provocan el apagado de la PSU OCP. Como beneficio adicional, hdparm -SX ahora está configurando unidades de "activo / inactivo" a "en espera". Sin embargo, las unidades conectadas al controlador sata_sil no podrían ser un controlador. La solución temporal es conectar temporalmente estas unidades a otro controlador. La configuración de recopilación de datos fuera de línea sobrevive reinicios y ciclos de energía.
Pro Backup
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.