¿Cómo verificar CentOS 6 Server VM Host después de un corte de energía?

9

Esta tarde, alguien en nuestra oficina decidió desconectar nuestro servidor porque estaba asaltando afuera. No lo apagaron, simplemente lo desconectaron mientras estaba funcionando.

El servidor tiene 4 unidades SATA en una configuración RAID 10 de software, y LVM se ejecuta sobre el RAID. El servidor ejecuta CentOS 6.2 Minimal y es un host de máquina virtual que utiliza KVM. En el momento en que se desconectó, había muchas máquinas invitadas ejecutándose en la computadora. Cada invitado tiene una o más particiones LVM que usa directamente como discos duros. Las particiones invitadas son EXT3, EXT4 y NTFS. El sistema operativo host está en una partición EXT4.

Más tarde, cuando volvió la energía, esa persona la volvió a enchufar y se puso en marcha. Como lo enchufaron sin conectar primero un monitor, no hay forma de ver lo que apareció en la pantalla. Intenté conectar un monitor ahora, pero no funcionará a menos que el monitor esté conectado en el arranque. Lo dejé encendido, tal como está, hasta que pueda obtener algunos consejos, ya que no quiero arruinar nada (más).

Puedo ingresar al host a través de SSH. Todavía no lo he reiniciado en caso de que haya algo en un registro en algún lugar que pueda ser útil.

Lo que debo hacer es verificar la integridad de los datos en todos los discos y particiones, si eso es posible. Creo que RAID 10 usa algún tipo de memoria caché basada en la memoria y me preocupa que las unidades sean inconsistentes o que los archivos estén corruptos si hay cosas en la señal para escribir en la unidad que aún no se han escrito.

[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1] 
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
      102388 blocks super 1.0 [4/4] [UUUU]

md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
      1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 0/15 pages [0KB], 65536KB chunk

md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
      1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]

unused devices: <none>

También me molesta que llame a mis matrices, "casi copias". ¿Eso es normal?

¿Qué tipo de comprobaciones de disco debo ejecutar para asegurarme de que todo está bien con las unidades y los datos? ¿Hay alguna otra cosa que deba verificar?

ACTUALIZAR

Salida de mdadm --detail

[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
        Version : 1.1
  Creation Time : Sat Feb 25 09:26:20 2012
     Raid Level : raid10
     Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
  Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sun Mar 11 12:59:30 2012
          State : active 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : othello.myserver.com:0  (local to host othello.myserver.com)
           UUID : 58ba40ab:12516733:e3779362:68200fdd
         Events : 2208

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3

— Mella
fuente

3

El RAID está bien, todos los UUUU significan que todos los discos de la matriz están activos. Ni siquiera me preocuparía por eso por ahora.

En cuanto a las máquinas virtuales, si desea ejecutar fscks en ellas, detenga las máquinas virtuales y ejecute

fsck.ext3 (ext4, etc) /path/to/lvm (generalmente como / dev / vg-name / lv-name)

Si está utilizando KVM, debería poder virshhacer cualquier cosa que necesite para las máquinas virtuales. Aquí hay un enlace a la página de manual de virsh http://linux.die.net/man/1/virsh

Si realmente desea ejecutar comprobaciones de disco en sus matrices de incursiones, tendrá que reiniciar en modo de usuario único o iniciar desde un CD en vivo para que pueda cargar los dispositivos individuales / dev / mdX. Dado que el sistema de archivos principal es EXT4, no me molestaría, es mucho mejor que EXT3 con cortes de energía.

— jemmille
fuente

+1, lo intentaré mañana.

— Nick

1

Pruebe mdadm --detail / dev / md0 (lo mismo para md1 y md2).

Entonces pruebe los consejos que se dan aquí: http://linas.org/linux/raid.html

— oda
fuente

He publicado el resultado de mdadm --detail /dev/md0arriba. Leí la guía que vinculó, pero no menciona los sistemas de archivos EXT4, o ¿qué puedo hacer específicamente para verificar la integridad?

— Nick

El tipo de sistema de archivos no debería importar en términos de integridad RAID. Si tiene un período de mantenimiento, puede desmontar los sistemas de archivos afectados y fsckellos. Si desea verificar los dispositivos RAID ellos mismos, puede hacer algo como echo "check" > /sys/block/md0/md/sync_action. O repita "reparar" para que haga algún tipo de reparación mdadm.

— cjc

Intentaré esto mañana e informaré.

— Nick