Mis servidores Xen son openSUSE 11.1 con open-iscsi en nuestro clúster SAN iSCSI. Los módulos SAN están en un grupo de conmutación por error de IP detrás de una IP virtual a la que se conectan los iniciadores.
En el caso de que el servidor SAN primario se caiga, el secundario toma la función de servir como objetivo. Todo esto lo maneja el software LeftHand SAN / iQ y funciona bien en la mayoría de las situaciones.
El problema que tengo es que, ocasionalmente, algunas de mis Xen DomU tendrán su sistema de archivos raíz de solo lectura después de una conmutación por error de IP. No es coherente y le sucede a un subconjunto diferente cada vez que se produce una conmutación por error. Todos ejecutan la misma imagen de software openSUSE 11.1.
Los sistemas de archivos raíz para cada DomU están montados por open-iscsi en Dom0 y luego Xen usa el controlador de dispositivo de bloque estándar para exponerlo a DomU.
El síntoma exacto es que, como root como en ejecución, touch /test
devuelve el error "sistema de archivos de solo lectura". Sin embargo, la salida de mount
muestra que está montado como lectura-escritura. Por supuesto, todas las demás E / S en domU también están fallando en este momento, por lo que la máquina se cae con fuerza. Simplemente reiniciarlo xm
desde Dom0 sin siquiera volver a conectar la sesión iSCSI hace que todo vuelva a funcionar.
En el lado Dom0, los mensajes de syslog durante la conmutación por error son similares a los siguientes:
kernel: connection1:0: iscsi: detected conn error (1011)
iscsid: Kernel reported iSCSI connection 1:0 error (1011) state (3)
iscsid: connection1:0 is operational after recovery (1 attempts)
Me está costando entender en qué capa depurar este problema, ¿hay algo en el núcleo de DomU? o en el nivel Dom0 o Xen? Creo que es probable que haya algún parámetro en algún lugar que necesite ajustes para aumentar algún tipo de tiempo de espera, pero no estoy seguro de dónde buscar.
Realmente no creo que sea un problema con open-iscsi simplemente porque el dispositivo de bloque conectado aún se puede leer y escribir desde Dom0.