Es difícil dar respuestas específicas, ya que el 90% de este trabajo es una experiencia que le enseña dónde buscar qué tipo de problema, y el otro 90% sabe dónde buscar en Google para obtener pistas sobre dónde comenzar.
Por lo general, pruebo cosas de bolsas de papel, como hacer que el cliente demuestre el problema (principalmente para descartar problemas con los dedos y cualquier problema que el cliente pueda tener al describir su problema), y luego intentar duplicar el problema en otra computadora. Hacer eso a menudo te da una idea de dónde mirar.
No olvide el problema correctivo de un reinicio, especialmente para sistemas Windows, incluso hoy. Solía ser así tanto que le preguntaba a la gente "¿Has reiniciado? Bueno, inténtalo y avísame si el problema persiste", esto solucionó un gran porcentaje de los problemas que me preguntaron.
Con frecuencia también hay problemas de resolución DNS y conectividad básica (ACL en enrutadores, espacios de aire en la red, pings / traceroutes / mtrs a sitios remotos, etc.).
Para los servicios sobre los que tiene control directo, ejecutar nagios o algo para garantizar que el servicio se esté ejecutando con frecuencia puede hacer que solucione problemas antes de que los clientes le informen sobre ellos. Probablemente también desee ejecutar la recopilación de estadísticas, ya sea directamente a través de munin o algo, o mediante SNMP a algo como Cacti.
Por lo general, trato de hacer que Cacti se ejecute contra al menos todos mis conmutadores centrales y firewalls; donde sea posible, ejecuto Cacti contra todo lo que puedo. En estos casos, generalmente busco cosas como conteos de errores de puerto o tráfico excesivo. Los gráficos de firewall de algunos dispositivos pueden mostrarle el uso de la CPU y las sesiones concurrentes; aprenderá a qué umbrales su dispositivo de firewall comienza a tener problemas.
Su cortafuegos puede iniciar sesión en un dispositivo syslog; si es así, registre todo lo que pueda y revise las pistas. Esto será más fácil si ejecuta algo como syslog-ng o rsyslog o splunk que le permite dividir sus registros en lugar de tratar con un archivo monolítico.
También trato de ejecutar nfsen contra al menos el interior de mi firewall y el enlace ascendente al proveedor de Internet cuando sea posible. Esto le permite retroceder en el tiempo para mirar las sesiones y ver quién estaba haciendo qué; Esto a veces puede detectar comportamientos interesantes.