PROBLEMA: los servidores en dos clústeres siguen perdiendo conectividad de latidos entre sí, lo que provoca interrupciones en la base de datos. Las interrupciones son breves pero perjudiciales.
PREPARAR:
- Hay dos grupos de tres servidores cada uno.
- Cada servidor tiene una NIC conectada a un único conmutador de capa 2 (Catalyst 2950) con los puertos del conmutador codificados a 100Mb / full-duplex.
- Los DBA confirman que cada NIC de latido está codificada en 100Mb / full-duplex.
- Hay dos clústeres configurados en la VLAN 100 y en la misma subred (10.40.60.0/24).
- La dirección IP de administración está en una subred separada (10.40.1.0/24) y su puerto de conmutación está en la VLAN 1.
SINTOMAS:
- Veo un recuento de errores cada vez mayor en los puertos del conmutador. Para los tres servidores en un clúster, los errores de entrada (todos los CRC) son aproximadamente el 3% del total de los paquetes de entrada. No hay errores de salida. El otro clúster tiene aproximadamente el 6% del total de paquetes de entrada.
- La carga de transmisión y recepción en los puertos del conmutador es ligera, inferior a 20/255 en txload y rxload.
- El registro del conmutador muestra los puertos del conmutador rebotando:
16 de mayo 11:15:31 PDT:% LINEPROTO-5-UPDOWN: Protocolo de línea en la interfaz FastEthernet0 / 13, cambio de estado a inactivo
16 de mayo 11:15:32 PDT:% LINK-3-UPDOWN: Interfaz FastEthernet0 / 13, cambiado estado hacia abajo
16 de mayo 11:15:34 PDT:% LINK-3-UPDOWN: Interfaz FastEthernet0 / 13, estado cambiado a arriba
16 de mayo 11:15:35 PDT:% LINEPROTO-5-UPDOWN: Protocolo de línea en la interfaz FastEthernet0 / 13, cambio de estado a arriba
- Reemplacé el viejo cableado Cat5 entre la NIC de latido del servidor y el conmutador con el nuevo Cat6, sin efecto.
- Creé una nueva VLAN 200 en una nueva subred (10.40.61.0/24) y los DBA volvieron a IP sus NIC de latido en un clúster, sin efecto.
- Probamos todas las combinaciones de velocidad y dúplex en el puerto del conmutador y la NIC; sin efecto, volvimos a 100Mb / dúplex completo en ambos.
- Los DBA actualizaron los controladores de Broadcom en ambos clústeres al último: caída del porcentaje de error en el clúster del 6% hasta el 4%, el otro clúster todavía está en el 3%.
MIS SIGUIENTES PASOS PROPUESTOS:
- Hay NIC de Intel en los servidores. Intente mover el latido del clúster a una NIC Intel. Tal vez es un problema de Broadcom?
- Cambie el interruptor a un interruptor capaz de conciertos. Hay un Catalayst 3560x disponible, pero tomarlo retrasará un proyecto. ¿Tal vez tocar en el puerto del switch y NIC funcionará mejor?
PENSAMIENTOS
¿Hay algo que pueda configurar en el conmutador 2950 existente para mitigar los errores? ¿Qué pasos adicionales de solución de problemas debo tomar?