Tenemos una caja SAN EMC NX4 que sirve un recurso compartido CIFS a varios servidores de aplicaciones de Windows Server 2008 R2. Los servidores de aplicaciones están utilizando el recurso compartido CIFS para servir muchos archivos de imagen (~ 2500 operaciones / segundo en el recurso compartido), sin embargo, ni la SAN ni los servidores de aplicaciones muestran signos evidentes de estrés.
De vez en cuando, un servidor de aplicaciones, aparentemente de repente, desconecta la conexión a la SAN. Cualquier código .NET que intente servir un archivo desde la SAN falla con:
System.IO.IOException: The specified network name is no longer available
Si RDP al servidor de aplicaciones e intento acceder a "\ san-name" a través del explorador, obtengo el mismo error. Todos los demás servidores de aplicaciones pueden acceder a él perfectamente. También puedo acceder a "\ ip-of-san" perfectamente, el ping funciona también.
Un reinicio del servidor de aplicaciones soluciona el problema, pero esa es una medida un tanto drástica del problema, dado que parece que la SAN está funcionando bien y la computadora puede acceder a ella, solo parece que el acceso "\ san-name" tiene vomitado.
Esto ha sucedido con dos servidores de aplicaciones diferentes durante la última semana, por lo que no sospecho que un solo servidor de aplicaciones sea la causa. Ignorando la causa por ahora, ¿cómo restablecería la conexión "\ san-name" sin reiniciar la máquina? ¿Y de alguna manera puedo preguntar qué salió mal?
Los registros de eventos no muestran nada (además de los errores relacionados con ASP.NET causados por el problema), ni en los servidores de aplicaciones ni en la SAN.
Actualización:
según las sugerencias, intentaré reiniciar el servicio de estación de trabajo la próxima vez y veré si eso ayuda al problema. Definitivamente no es una solución, pero es mucho más rápido que reiniciar toda la máquina como lo he estado haciendo actualmente. ¿Alguna forma de consultar el estado de las conexiones que mantiene el servicio de estación de trabajo?
Actualización 2: se
confirmó que reiniciar el servicio de estación de trabajo "soluciona" el problema. El siguiente paso es probar el cambio de registro para aumentar el valor de MaxCmds. No podrá confirmar si se trata del problema, solo puede suponer si se ejecuta durante un período prolongado sin problemas.