¿Por qué mi VM HyperV pierde conectividad al azar?


10

Tengo un extraño problema de conectividad intermitente que ocurre aproximadamente una vez cada dos semanas.

Primero mi configuración: estoy ejecutando un clúster de conmutación por error HyperV con dos hosts físicos (node01 y node02). Ambos hosts ejecutan el servidor HyperV de Windows Server 2008 R2 (el gratuito) con SP1. En esos hosts estoy ejecutando dos máquinas virtuales cada una con Windows Server 2008 R2 Web Edition con SP1. Mi servidor de almacenamiento es Windows Storage Server 2008 conectado a través de iSCSI. Tanto los hosts como el servidor de almacenamiento ejecutan los últimos controladores de red descargados directamente del sitio web de Intel.

Aquí está el problema: el 99.99% de las veces, todo funciona perfectamente. Aproximadamente una vez cada dos o tres semanas, las máquinas virtuales perderán simultáneamente la conectividad de red, tanto entrantes como salientes. Cuando esto pasa,

  1. No puedo RDP en ninguna VM.
  2. Puedo RDP en cualquier host.
  3. Puedo conectarme a cualquiera de las máquinas virtuales desde el Administrador de clústeres de conmutación por error haciendo clic derecho en el nodo y seleccionando 'Conectar a máquina virtual'
  4. Una vez que me conecto a la VM como se describe en el punto 3 anterior, no puedo acceder a ningún sitio web o máquina en la LAN. Deshabilitar y volver a habilitar la conexión de red virtual dentro de la VM no soluciona el problema.
  5. Si muevo la VM a un nodo diferente, eso soluciona el problema (durante las próximas dos semanas).
  6. Si reinicio el host y muevo la VM de nuevo a él, eso soluciona el problema (durante las próximas dos semanas).
  7. Cuando esto sucede, el clúster de conmutación por error NO realiza una conmutación por error automática de la máquina virtual.
  8. No hay entradas de registro de eventos inusuales en ninguno de los hosts o máquinas virtuales.

Esto ha sucedido aproximadamente 5 veces con los mismos síntomas descritos anteriormente. Sospecho que hay un controlador de red o un problema de hardware de red, pero como ya estoy ejecutando los controladores más recientes, no estoy seguro de qué hacer al respecto.

Este es un verdadero rascador de cabeza ... ¿alguna idea?

Actualizar

Encontré un caso muy similar aquí: Virutal Machine pierde la conectividad de red en Hyper V Cluster

Actualización 29/07/2011

Después de instalar las revisiones y actualizar los controladores de red, sigo teniendo el mismo problema. En respuesta al comentario que solicita detalles de hardware, el servidor es un Intel SR1670HV, que es un chasis de 1U que contiene dos placas base independientes S5500HV. La comunicación se realiza a través de las NIC integradas de las placas base que son Intel 82574L. El controlador de red es la versión 16.2.49.0.


¿puede agregar detalles sobre su hardware (número de nics)
Jim B

¿Qué marca / modelo de NIC tiene en el servidor?
Chris S

Información sobre hardware y NIC añadidos anteriormente.
Mike

¿Con qué interruptor de marca / modelo se conecta?
ErnieTheGeek

He tenido un problema simular con imágenes CentOS en un servidor MS hyperV. ¿Tiene NIC dedicadas para cada máquina o una NIC compartida? Una vez que cambiamos a NIC dedicado este problema se fue ... que no es una verdadera solución, aunque ...
n8whnp

Respuestas:


7

Solíamos tener un problema como este en el que estoy. No recuerdo los detalles exactos, pero la solución final tuvo que ver con una dirección MAC en conflicto asignada dinámicamente a un adaptador de red virtual. Fijar a los que no eran dinámicos ayudó mucho. Normalmente no desea hacer eso porque puede dificultar mover una máquina virtual a un host diferente, pero nos ayudó en este caso.

La otra parte es que las redes físicas fueron hechas por broadcom y también tuvimos un error de configuración allí, donde un administrador anterior había intentado incorrectamente utilizar la utilidad broadcom para conectar las dos redes en el host para mejorar el ancho de banda / rendimiento. Eliminamos esa configuración y configuramos una de las nics para que no tuviera ninguna IP en la máquina host, pero aún podría usarse para pasar a invitados virtuales. Luego, configuramos cada máquina virtual para que solo use un nic u otro, equilibrando la carga en función del tráfico histórico. Por supuesto, eso significa que no habrá conmutación por error si un adaptador o conexión se cae, y no hemos seguido bien para ver si el tráfico se ha mantenido equilibrado con el tiempo, pero desde entonces ha sido sólido como una roca estable.


5

Soy consciente de que esta es una vieja pregunta, pero me encontré con el mismo problema y perdí tanto tiempo resolviéndolo que pensé en compartir la solución que me funcionó. Encontré la solución a mi problema aquí:

http://invendows.wordpress.com/2008/03/06/network-issue-with-hyper-v/

La solución en mi situación era deshabilitar la descarga de TCP en las máquinas virtuales. Citaré la sección relevante del enlace:

Para deshabilitar la descarga de TCP, tuve que crear y establecer un nuevo valor de registro en cada VM conectada a la NIC Broadcom 8507 Nextreme II.

Utilicé el siguiente cambio de registro para deshabilitar la descarga de TCP:

Clave: HKLM \ SYSTEM \ CurrentControlSet \ Services \ Tcpip \ Parameters

Valor (DWORD): DisableTaskOffload = 1

Después de deshabilitar la descarga TCP en cada VM de esta manera, todos los problemas habían terminado y pude conectar varias VM a un puerto NIC de la NIC Broadcom 5708 Nextreme II.

Mi servidor tiene Broadcom NetExtremeNIC, por lo que me parece que la causa de este problema estaba definitivamente relacionada con el controlador, pero la configuración DisableTaskOffload= 1 resolvió el problema por completo para mí. ¡Espero que esta información le ahorre a alguien más horas de búsqueda!


1
+1, gracias por este consejo, he estado corriendo durante un par de días sin ningún problema.
m0dest0

1
No hay problema, m0dest0. Me alegra saber que te ayudó. :)
BruceHill

3

Me he encontrado con algo similar en un entorno de Hyper-V mucho más simple, y me encontré con este artículo en Microsoft. Parece encajar con su situación si los servidores web son muy utilizados.

http://support.microsoft.com/kb/974909 : la conexión de red de una máquina virtual Hyper-V en ejecución se pierde debido al intenso tráfico de red saliente en una computadora con Windows Server 2008 R2


El artículo de KB al que hace referencia fue anterior al SP1, pero hice uno similar posterior al SP1 que parece prometedor: support.microsoft.com/kb/2263829
Mike

1
Eliminé esto como respuesta porque instalé el hotfix pero el problema todavía está ocurriendo. Por lo tanto, esta pregunta sigue sin respuesta ...
Mike

2

Tuvimos este mismo problema, aunque en nuestro caso fue cada 24-48 horas. Verificaría dos veces que su producto antivirus / firewall sea compatible específicamente con Server 2008 con Hyper-V; si no, intente con un producto antivirus diferente (o elimine temporalmente si es posible) como prueba para ver si el problema desaparece .

Después de una llamada a Microsoft y varias cargas de archivos de volcado / registro más tarde, determinaron que TrendMicro OfficeScan era el culpable en nuestro caso. Estábamos usando una versión que resultó no ser explícitamente compatible con Hyper-V, una vez que actualizamos a la última versión, el problema desapareció.


2

Esto resultó ser un problema de hardware: aislé el problema en un conmutador administrado Netgear GSM7224v2, lo reemplacé con un D-Link DGS-1024D, y todo ha estado funcionando bien desde entonces.

Como una "lección aprendida", en este caso probablemente gasté el 99% de mi esfuerzo de diagnóstico para solucionar problemas de configuración del software por lo que resultó ser un problema de hardware. Incluso le pagué a Microsoft Support $ 259 (y pasé mucho tiempo al teléfono con ellos) para ayudarme a resolverlo hurgando en la configuración del software. Supongo que la moraleja de la historia es sospechar de su hardware tanto como su software.


1

En las propiedades del adaptador de red para el invitado VM, ¿ha deshabilitado los paquetes Jumbo y la descarga de envío grande? Según mi experiencia con estas configuraciones, definitivamente lo probaría.


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.