Tengo un extraño problema de conectividad intermitente que ocurre aproximadamente una vez cada dos semanas.
Primero mi configuración: estoy ejecutando un clúster de conmutación por error HyperV con dos hosts físicos (node01 y node02). Ambos hosts ejecutan el servidor HyperV de Windows Server 2008 R2 (el gratuito) con SP1. En esos hosts estoy ejecutando dos máquinas virtuales cada una con Windows Server 2008 R2 Web Edition con SP1. Mi servidor de almacenamiento es Windows Storage Server 2008 conectado a través de iSCSI. Tanto los hosts como el servidor de almacenamiento ejecutan los últimos controladores de red descargados directamente del sitio web de Intel.
Aquí está el problema: el 99.99% de las veces, todo funciona perfectamente. Aproximadamente una vez cada dos o tres semanas, las máquinas virtuales perderán simultáneamente la conectividad de red, tanto entrantes como salientes. Cuando esto pasa,
- No puedo RDP en ninguna VM.
- Puedo RDP en cualquier host.
- Puedo conectarme a cualquiera de las máquinas virtuales desde el Administrador de clústeres de conmutación por error haciendo clic derecho en el nodo y seleccionando 'Conectar a máquina virtual'
- Una vez que me conecto a la VM como se describe en el punto 3 anterior, no puedo acceder a ningún sitio web o máquina en la LAN. Deshabilitar y volver a habilitar la conexión de red virtual dentro de la VM no soluciona el problema.
- Si muevo la VM a un nodo diferente, eso soluciona el problema (durante las próximas dos semanas).
- Si reinicio el host y muevo la VM de nuevo a él, eso soluciona el problema (durante las próximas dos semanas).
- Cuando esto sucede, el clúster de conmutación por error NO realiza una conmutación por error automática de la máquina virtual.
- No hay entradas de registro de eventos inusuales en ninguno de los hosts o máquinas virtuales.
Esto ha sucedido aproximadamente 5 veces con los mismos síntomas descritos anteriormente. Sospecho que hay un controlador de red o un problema de hardware de red, pero como ya estoy ejecutando los controladores más recientes, no estoy seguro de qué hacer al respecto.
Este es un verdadero rascador de cabeza ... ¿alguna idea?
Actualizar
Encontré un caso muy similar aquí: Virutal Machine pierde la conectividad de red en Hyper V Cluster
Actualización 29/07/2011
Después de instalar las revisiones y actualizar los controladores de red, sigo teniendo el mismo problema. En respuesta al comentario que solicita detalles de hardware, el servidor es un Intel SR1670HV, que es un chasis de 1U que contiene dos placas base independientes S5500HV. La comunicación se realiza a través de las NIC integradas de las placas base que son Intel 82574L. El controlador de red es la versión 16.2.49.0.