Utilizo las pruebas de Debian sin ningún problema durante ~ 6 años (solo las estoy actualizando regularmente), pero recientemente comenzó a mostrar un comportamiento aleatorio que puede resumirse como "Bajo rendimiento de E / S que persiste hasta el reinicio".
El problema es que, de repente, todas las lecturas y escrituras de disco se ralentizan a ~ 5 MB / seg, lo que resulta en lecturas y escrituras continuas. Dado que la tasa es tan baja, los discos no se ven desafiados o estresados mecánicamente, pero todo se ralentiza hasta que reinicio.
El subsistema de E / S de la computadora consta de un SSD OCZ Vertex 3 y dos HDD WD Caviar Black. SSD contiene una parte del sistema operativo con mucha lectura y una partición en el HDD contiene el resto.
Para diagnosticar el problema probé lo siguiente sin éxito:
topno muestra ninguna actividad fuera de control ni en el uso de CPU o E / S.hdparmdevuelve clasificaciones de rendimiento normales de los discos (aunque solo lo verifiqué-t).smartctlno muestra ningún problema de rendimiento en los discos. Largas pruebas mostraron que los discos son tan buenos como nuevos.
El sistema tiene un chipset Z77, 16 GB de RAM e CPU Intel i7 3770K y las estadísticas no muestran signos de saturación en RAM, E / S o CPU, pero no tengo experiencia para depurar problemas como este (especialmente en el espacio del kernel). Cualquier ayuda será apreciada.
Actualización 1:
- Corrí (forzado) fsck en cada partición como medida de precaución. Todos los FS están limpios.
- Por cierto, encontré una actualización de BIOS que salió hace un mes y la apliqué.
- Ninguna partición se llena más del 50%.
Actualización 2:
El problema no está surgiendo durante dos días. O fsckla actualización del BIOS limpió algunas obstrucciones en el sistema. Todavía estoy monitoreando el problema y cerraré la pregunta con una respuesta post mortem.
Actualización 3:
El problema simplemente resurgió y cavé un poco más. Por favor mira la respuesta.
noop.
free)
iowaitetc., si está recopilando datos sar. Lo habilitaría sysstatsi aún no se está ejecutando. Puede verificar con la sar -Amayoría de las plataformas tener intervalos de muestra de diez minutos.
atople indicaría qué tan ocupados están los discos (como cuando se busca todo el tiempo).