Primero, debo preguntar: ¿"paradas"? ¿Quiere decir que la máquina se reinicia o se detiene realmente? Si se detiene, está mal configurado (tal vez en BIOS) o algo está apagando activamente la máquina (es decir, init 0).
De lo contrario, su candidato principal sería / var / log / syslog y /var/log/kern.log ya que su problema suena como un pánico del kernel o una falla de hardware activada por software. Por supuesto, si el servidor ejecuta algún servicio (por ejemplo, apache) también puede darle una pista.
A menudo, en situaciones como esta, se generan entradas de registro, pero debido a que la máquina tiene dificultades, no logrará escribir las entradas en el disco. Si la caja está colocada, es probable que el socio colo la conecte a una consola en serie. Ahí es donde buscaría si no encontrara nada sospechoso en los registros anteriores.
Si la máquina no está conectada a una consola serie y no hay nada en el registro, puede considerar enviar syslog a una caja diferente a través de la red. Quizás la interfaz de red sobrevive un poco más y los mensajes de registro se pueden leer en el servidor syslog. Eche un vistazo a rsyslog o syslog-ng.
ACTUALIZAR:
Estoy de acuerdo con @Johann a continuación. La causa más probable de detención es la vigilancia de la temperatura del procesador. Intente verificar / graficar la temperatura en la caja a través de lmsensors o smartctl (generalmente la más fácil). Encuentro que collectd no tiene paralelo en el seguimiento de una gran cantidad de variables a lo largo del tiempo. Puede hacer tanto IPMI como sensores lm y hddtemp. Además, algunos BIOS: es la temperatura de registro para detener eventos.