Utilizo las pruebas de Debian sin ningún problema durante ~ 6 años (solo las estoy actualizando regularmente), pero recientemente comenzó a mostrar un comportamiento aleatorio que puede resumirse como "Bajo rendimiento de E / S que persiste hasta el reinicio".
El problema es que, de repente, todas las lecturas y escrituras de disco se ralentizan a ~ 5 MB / seg, lo que resulta en lecturas y escrituras continuas. Dado que la tasa es tan baja, los discos no se ven desafiados o estresados mecánicamente, pero todo se ralentiza hasta que reinicio.
El subsistema de E / S de la computadora consta de un SSD OCZ Vertex 3 y dos HDD WD Caviar Black. SSD contiene una parte del sistema operativo con mucha lectura y una partición en el HDD contiene el resto.
Para diagnosticar el problema probé lo siguiente sin éxito:
top
no muestra ninguna actividad fuera de control ni en el uso de CPU o E / S.hdparm
devuelve clasificaciones de rendimiento normales de los discos (aunque solo lo verifiqué-t
).smartctl
no muestra ningún problema de rendimiento en los discos. Largas pruebas mostraron que los discos son tan buenos como nuevos.
El sistema tiene un chipset Z77, 16 GB de RAM e CPU Intel i7 3770K y las estadísticas no muestran signos de saturación en RAM, E / S o CPU, pero no tengo experiencia para depurar problemas como este (especialmente en el espacio del kernel). Cualquier ayuda será apreciada.
Actualización 1:
- Corrí (forzado) fsck en cada partición como medida de precaución. Todos los FS están limpios.
- Por cierto, encontré una actualización de BIOS que salió hace un mes y la apliqué.
- Ninguna partición se llena más del 50%.
Actualización 2:
El problema no está surgiendo durante dos días. O fsck
la actualización del BIOS limpió algunas obstrucciones en el sistema. Todavía estoy monitoreando el problema y cerraré la pregunta con una respuesta post mortem.
Actualización 3:
El problema simplemente resurgió y cavé un poco más. Por favor mira la respuesta.
noop
.
free
)
iowait
etc., si está recopilando datos sar. Lo habilitaría sysstat
si aún no se está ejecutando. Puede verificar con la sar -A
mayoría de las plataformas tener intervalos de muestra de diez minutos.
atop
le indicaría qué tan ocupados están los discos (como cuando se busca todo el tiempo).