Tenemos un par de docenas de servidores Proxmox (Proxmox se ejecuta en Debian), y aproximadamente una vez al mes, uno de ellos tendrá un kernel panic y se bloqueará. La peor parte de estos bloqueos es que cuando se trata de un servidor que está en un conmutador separado del maestro del clúster, todos los demás servidores Proxmox en ese conmutador dejarán de responder hasta que podamos encontrar el servidor que realmente se ha bloqueado y reiniciarlo.
Cuando informamos este problema en el foro de Proxmox, se nos recomendó actualizar a Proxmox 3.1 y hemos estado en proceso de hacerlo durante los últimos meses. Desafortunadamente, uno de los servidores que migramos a Proxmox 3.1 se encerró con un kernel panic el viernes, y nuevamente todos los servidores Proxmox que estaban en ese mismo conmutador no fueron accesibles a través de la red hasta que pudimos localizar el servidor bloqueado y reiniciarlo.
Bueno, casi todos los servidores Proxmox en el conmutador ... Me pareció interesante que los servidores Proxmox en ese mismo conmutador que todavía estaban en Proxmox versión 1.9 no se vieran afectados.
Aquí hay una captura de pantalla de la consola del servidor bloqueado:
Cuando el servidor se bloqueó, el resto de los servidores en el mismo conmutador que también ejecutaban Proxmox 3.1 se volvieron inalcanzables y arrojaban lo siguiente:
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
...etc...
uname -una salida del servidor bloqueado:
Linux ------ 2.6.32-23-pve #1 SMP Tue Aug 6 07:04:06 CEST 2013 x86_64 GNU/Linux
Salida pveversion -v (abreviada):
proxmox-ve-2.6.32: 3.1-109 (running kernel: 2.6.32-23-pve)
pve-manager: 3.1-3 (running version: 3.1-3/dc0e9b0e)
pve-kernel-2.6.32-23-pve: 2.6.32-109
Dos preguntas:
¿Alguna pista de lo que podría estar causando el pánico en el núcleo (ver imagen arriba)?
¿Por qué otros servidores en el mismo conmutador y versión de Proxmox serán desconectados de la red hasta que se reinicie el servidor bloqueado? (Nota: había otros servidores en el mismo conmutador que ejecutaban la versión 1.9 anterior de Proxmox que no se vieron afectados. Además, ningún otro servidor Proxmox en el mismo clúster 3.1 se vio afectado que no estaba en ese mismo conmutador).
Gracias de antemano por cualquier consejo.