Nos estamos preparando para realizar una gran actualización en nuestros servidores SQL y estamos notando un comportamiento inusual con los grupos de disponibilidad distribuida que estoy tratando de resolver antes de seguir adelante.
El mes pasado, actualicé un servidor secundario remoto de SQL Server 2016 a SQL Server 2017. Este servidor forma parte de varios Grupos de disponibilidad distribuida (DAG) y un Grupo de disponibilidad (AG) separado . Cuando actualizamos este servidor, no sabíamos que entraría en un estado ilegible , por lo que durante el último mes solo confiamos en el servidor primario.
Como parte de la próxima actualización, apliqué el parche CU 4 al servidor y lo reinicié. Cuando el servidor volvió a estar en línea, el secundario recién parcheado mostró que todos los DAG / AG se sincronizaban sin ningún problema.
Sin embargo, la primaria mostraba una historia muy diferente. Estaba informando que
- el AG separado se estaba sincronizando sin ningún problema
- pero los DAG estaban en un No Synchronzing / No saludable estado
Después de entrar en pánico inicialmente, intenté lo siguiente para sincronizar las cosas nuevamente en los DAG:
- Desde la primaria, paré y reanudé el movimiento de datos. Esto no comenzó a sincronizar los datos.
- En el secundario (el que acabo de parchar) ejecuté
ALTER DATABASE [<database] SET HADR RESUME;
, que se ejecuta sin errores, pero no reanudó ninguna sincronización
Mi último intento de sincronizar los datos nuevamente fue iniciar sesión en el secundario y reiniciar manualmente el servicio SQL Server. Reiniciar manualmente el servicio parece un poco extremo, ya que esperaría que el servidor reiniciado hubiera sido suficiente.
¿Alguien se ha encontrado con este problema en el que un DAG no comienza a sincronizarse con un secundario después de un reinicio? Si es así, ¿cómo se resolvió?
Revisé el registro de errores de SQL Server y el visor de eventos en el servidor secundario, no había nada fuera de lo común que pudiera ver.