(publicado originalmente en serverfault )
Entonces, en lugar de adivinar cuál es la causa (aunque mi dinero está en los controladores nvidia), ¿dónde empiezo a buscar para precisar algunos hechos?
He revisado / var / log en varias ocasiones, pero hay MUCHAS cosas allí y no puedo (todavía) detectar los bits importantes.
Antecedentes: la versión corta
Me mudé de WinXP a Ubuntu Karmic justo después de que estuvo disponible.
Desde entonces, he tenido una serie de bloqueos aparentemente aleatorios que se manifiestan como:
- un reinicio espontáneo
- un bloqueo completo con mi teclado y mouse USB que deja de responder (hasta que los LED se apagan). Además, normalmente no podré enviar ssh a la caja cuando esto suceda.
He investigado mucho y Nvidia parece ser el principal sospechoso, pero no tengo idea de dónde empezar a buscar para averiguar cuál es la verdadera causa.
Un usuario predeterminado del servidor sugirió verificar la RAM con MemtextX86 +. No se encontraron errores. También se ha sugerido controlar la temperatura de la tarjeta de video, que estoy investigando ahora.
Aparte de eso, sugerencias de alguien?
Antecedentes: la versión larga
A veces, puedo pasar una semana entera sin un accidente y luego tener 5 en 2 días.
Motivado por el deseo de eliminar posibles sospechosos, he hecho algunos cambios con el tiempo en vano:
- Originalmente usé KVM para la virtualización, ahora uso VirtualBox OSE
- Tenía NFS ejecutándose en el kernel pero ahora uso Samba
- Estaba usando Compiz pero desde entonces lo apagué
- He pasado de Karmic de 64 bits a 32 bits (también por otras razones)
- He probado Ubuntu, Kubuntu y Xubuntu. El mismo problema cada vez (aunque últimamente parece ser más frecuente en Gnome que en XFCE).
- Puse el controlador Nvidia de la versión 185 a la versión 96 (NVIDIA Linux x86 Kernel Module 96.43.13 jue 25 de junio 18:42:21 PDT 2009). Esto parece haber reducido la frecuencia de error.
En términos de lo que se está ejecutando en ese momento, esto puede variar. Los siguientes son comunes pero no necesariamente se ejecutaron para cada bloqueo:
- Firefox 3.5
- VirtualBox OSE con 1 o 2 máquinas virtuales con Windows XP
- Skype
- Rhythmbox o Exaile
Mi hardware tiene 2 o 3 años:
- Core 2 Duo 6300
- 4 GB de RAM
- alguna raza de placa base Intel de esa época
- una tarjeta de video de doble cabezal Asus con el chipset Nvdia GeForce 7300 GS
- 2 x discos duros SATA
- monitores duales (por lo tanto, confío en los controladores propietarios de nvidia)
Me he mantenido al día con las actualizaciones de mi sistema.
Con suerte, los datos anteriores podrían incitar a alguien a sugerir un tipo específico de registro o configuración que valdría la pena investigar.
Actualización 1
acabo de tener un accidente en el que los altavoces se volvieron locos Busqué en Google y parece que PulseAudio ha tenido algunos problemas en el pasado. Todavía no estoy seguro si esto es relevante, pero PulseAudio se habrá estado ejecutando cada vez que tuve un bloqueo.
Actualización 2
Seguir el enlace de @ CarlF a la Guía del administrador de sistemas de Debian me ha llevado a la clave sysrq mágica que intentaré en el próximo bloqueo. No es que esto me dé muchas pistas sobre la causa, pero al menos espero poder cerrar con gracia.
Actualización 3
lm-sensores informa que mi GPU funciona a casi 70 ° C / 158 ° F: interesante. Si tuviera que adivinar, diría que esta es una pista importante.
Actualización 4
Golpee el interior del sistema con un airduster poco después de mi última actualización: resultado neto: solo un bloqueo desde entonces. Voy a llamar a esto un problema térmico.