Esta tarde, alguien en nuestra oficina decidió desconectar nuestro servidor porque estaba asaltando afuera. No lo apagaron, simplemente lo desconectaron mientras estaba funcionando.
El servidor tiene 4 unidades SATA en una configuración RAID 10 de software, y LVM se ejecuta sobre el RAID. El servidor ejecuta CentOS 6.2 Minimal y es un host de máquina virtual que utiliza KVM. En el momento en que se desconectó, había muchas máquinas invitadas ejecutándose en la computadora. Cada invitado tiene una o más particiones LVM que usa directamente como discos duros. Las particiones invitadas son EXT3, EXT4 y NTFS. El sistema operativo host está en una partición EXT4.
Más tarde, cuando volvió la energía, esa persona la volvió a enchufar y se puso en marcha. Como lo enchufaron sin conectar primero un monitor, no hay forma de ver lo que apareció en la pantalla. Intenté conectar un monitor ahora, pero no funcionará a menos que el monitor esté conectado en el arranque. Lo dejé encendido, tal como está, hasta que pueda obtener algunos consejos, ya que no quiero arruinar nada (más).
Puedo ingresar al host a través de SSH. Todavía no lo he reiniciado en caso de que haya algo en un registro en algún lugar que pueda ser útil.
Lo que debo hacer es verificar la integridad de los datos en todos los discos y particiones, si eso es posible. Creo que RAID 10 usa algún tipo de memoria caché basada en la memoria y me preocupa que las unidades sean inconsistentes o que los archivos estén corruptos si hay cosas en la señal para escribir en la unidad que aún no se han escrito.
[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1]
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
102388 blocks super 1.0 [4/4] [UUUU]
md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
bitmap: 0/15 pages [0KB], 65536KB chunk
md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
unused devices: <none>
También me molesta que llame a mis matrices, "casi copias". ¿Eso es normal?
¿Qué tipo de comprobaciones de disco debo ejecutar para asegurarme de que todo está bien con las unidades y los datos? ¿Hay alguna otra cosa que deba verificar?
ACTUALIZAR
Salida de mdadm --detail
[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
Version : 1.1
Creation Time : Sat Feb 25 09:26:20 2012
Raid Level : raid10
Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Sun Mar 11 12:59:30 2012
State : active
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0
Layout : near=2
Chunk Size : 512K
Name : othello.myserver.com:0 (local to host othello.myserver.com)
UUID : 58ba40ab:12516733:e3779362:68200fdd
Events : 2208
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
1 8 19 1 active sync /dev/sdb3
2 8 35 2 active sync /dev/sdc3
3 8 51 3 active sync /dev/sdd3