Tengo una máquina de 24 núcleos con 94.6GiB RAM que ejecuta el servidor Ubuntu 10.04. La caja está experimentando un alto porcentaje de iowait, a diferencia de otro servidor que tenemos (4 núcleos) ejecutando los mismos tipos y cantidades de procesos. Ambas máquinas están conectadas a un servidor de archivos VNX Raid, la máquina de 24 núcleos a través de 4 tarjetas FC y la otra a través de tarjetas Ethernet de 2 gigabits. La máquina de 4 núcleos actualmente supera a la máquina de 24 núcleos, tiene un mayor uso de CPU y un menor porcentaje de iowait.
En 9 días de tiempo de actividad, el porcentaje promedio de iowait es del 16%, y es rutinariamente superior al 30%. La mayoría de las veces el uso de la CPU es muy bajo, alrededor del 5% (debido a la gran cantidad de iowait). Hay abundante memoria libre.
Una cosa que no entiendo es por qué todos los datos parecen estar pasando por el dispositivo sdc en lugar de pasar por los motores de datos directamente:
avg-cpu: %user %nice %system %iowait %steal %idle
6.11 0.39 0.75 16.01 0.00 76.74
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 0.00 0.00 0.00 1232 0
sdb 0.00 0.00 0.00 2960 0
sdc 1.53 43.71 44.54 36726612 37425026
dm-0 0.43 27.69 0.32 23269498 268696
dm-1 1.00 1.86 7.74 1566234 6500432
dm-2 0.96 1.72 5.97 1442482 5014376
dm-3 0.49 9.57 0.18 8040490 153272
dm-4 0.00 0.00 0.00 1794 24
dm-5 0.00 0.00 0.00 296 0
Otra pieza del rompecabezas es que las tareas con frecuencia pasan al modo de suspensión ininterrumpible (en la parte superior), probablemente también debido al atraco io.
¿Qué puedo mirar para ayudar a diagnosticar el problema? ¿Por qué todos los datos pasan por / dev / sdc? ¿Eso es normal?
ACTUALIZAR:
La conexión de red y la capacidad de lectura / escritura de VNX se han descartado como cuellos de botella. Podemos alcanzar velocidades de 800 MB / s con las 4 NIC unidas (round-robin). Las tarjetas de canal de fibra aún no se están utilizando. El VNX es capaz de manejar el IO (RAID6, discos de 30x2TB 7.2kRPM por grupo en dos grupos (60 discos en total), aproximadamente 60% de lectura).
Ignore arriba sobre dm y sdc, todos son discos internos y no son parte del problema.
Creemos que el problema podría estar relacionado con los montajes nfs o TCP (tenemos 5 montajes en 5 particiones en el VNX), pero no sabemos exactamente qué. ¿Algún consejo?
dm
representa el mapeador de dispositivos, no el transportador de datos. Esta pregunta probablemente le iría mucho mejor en Server Fault.