Primer orden: ¿es receptivo?
Si no puede iniciar sesión, hay mayores problemas en marcha. Esto generalmente viene en dos sabores: falla de hardware y falla de software. Ambos son potencialmente catastróficos. Para evitar errores de DFA, primero verifique el estado general del hardware; una simple revisión generalmente será suficiente.
Segundo orden: ¿Las estructuras subyacentes del sistema gozan de buena salud y orden?
Verifique la "Tríada Dorada" de los sistemas:
- Suficiente tiempo de CPU es gratis para procesar
- Suficiente espacio en disco es libre para almacenamiento
- Suficiente memoria es gratuita para cargas de trabajo.
En las últimas décadas, la tríada se ha expandido a un "quad" que incluye comunicaciones (redes):
- La conectividad es funcional, receptiva y tiene capacidad
Tercer orden: ¿Cuál es la gravedad del problema?
¿Qué programas o servicios se ven afectados? En orden decreciente de gravedad, ¿es sistémico (en todo el sistema), agrupado (un grupo de programas) o aislado (un programa específico)? Los grupos de programas generalmente se están disparando porque un servicio subyacente específico ha fallado o no ha respondido. Los problemas sistémicos a veces están relacionados con esto (piense en los conflictos de DNS o IP), pero saber dónde buscar suele ser la clave.
Cuarto orden: ¿Las herramientas de diagnóstico proporcionan datos útiles relevantes para el problema?
Ahora que tiene información sobre el estado del sistema (segundo orden) y qué partes del mismo están experimentando problemas (tercer orden), esto debería facilitar la determinación de dónde está el problema.
Los mensajes de error o los archivos de registro deben ser un punto de referencia común en este viaje.
Problemas de CPU:
- loadav
- parte superior
- strace
Espacio en disco / problemas de E / S:
Problemas de memoria:
Problemas de conectividad:
- silbido
- ruta (y arp y rarp y amigos)
- iptables, ipchains, ipfw (para esas personas de BSD)
- traceroute o mtr
- hosts, nslookup o dig
- netstat
Queja más común (que escucho):
El correo electrónico no se entrega lo suficientemente rápido (más de un minuto desde el envío hasta la recepción del destinatario) o el correo electrónico rechaza mi intento de envío. Esto generalmente se reduce al limitador de velocidad en Postfix que se activa durante una tormenta de spam, lo que afecta la capacidad de aceptar la entrega interna.
Un ejemplo de la vida real:
Sin embargo, este no es siempre el caso. Una vez, el problema persistió independientemente del reinicio del servicio; así que después de 3 minutos era hora de empezar a mirar alrededor La CPU estaba ocupada pero por debajo del 100%, sin embargo, la carga se había disparado a 15 en una caja de solo 2 núcleos y amenazaba con aumentar. El comando superior reveló que el sistema de correo estaba en sobremarcha, junto con el escáner de correo, pero que no se veían procesos secundarios de amavis. Esa fue la pista: el comando de cola de correo (mailq) mostró más de 150 mensajes no entregados, de los cuales más del 80% eran spam, en los últimos 20 minutos. Un ajuste rápido para reducir el limitador de velocidad (que redujo la velocidad de entrada de la tormenta de spam) al tiempo que aumentaba el número de procesos secundarios del escáner de correo electrónico (para ayudar a procesar el retraso), seguido de un reinicio del servicio, resolvió el problema y el sistema pudo para completar entregas en poco tiempo.
La causa del problema fue que el proceso padre de amavis se había desplomado y los procesos hijos eventualmente habían seguido su curso (se terminaban automáticamente después de tantos escaneos para evitar pérdidas de memoria). Así que había procesos SMTP en postfix que intentaban contactar ... de la nada ... para hacer el escaneo de spam / virus que era necesario. La distribución que estaba usando tenía paquetes desactualizados que nunca serían actualizados; Como la instalación debía ser reemplazada en aproximadamente un año, "anulé" manualmente la instalación a la última versión, que incluía varias correcciones de errores. No he tenido el mismo problema desde entonces.