En un servidor con doble CPU, ¿es normal que una CPU se caliente más que la otra?


51

Tengo un servidor Opteron dual que ejecuta Linux con libvirt para alojar varias máquinas virtuales. Las máquinas virtuales funcionan bien y el servidor procesa bien, pero noto que una CPU siempre ejecuta aproximadamente 69C (aceleradores a 70C) y la otra ejecuta aproximadamente 15C.

¿Esto no me parece normal? ¿No deberían estar ambos un poco más cerca de la temperatura?

No estoy seguro de cómo seguir dianose. ¿Quizás no haya suficiente pasta térmica en una de las CPU?

Editar: La placa base es ASUS KGPE-D16 y se enfría con dos ventiladores Noctua NH-U9DO .

Tenga en cuenta que creo que las temperaturas pueden ser inferiores a la temperatura ambiente, en lugar de valores absolutos. Cuando el servidor está inactivo, las temperaturas de la CPU caen a 2 ° C y 13 ° C. Estoy usando la configuración de lmsensors desde aquí


1
¿Cuál es la marca / modelo del servidor?
ewwhite

2
¿Cómo es la distribución de la carga de la CPU? mpstat -P ALL 1en Linux ayudará
Christopher Perrin

3
suena como un sensor de temperatura roto
matcheek

14
15C es muy probable que sea un censor roto ...
Reaces

Parece un sensor roto o mal calibrado, si puede reiniciar el servidor, eche un vistazo al BIOS que debería mostrar los valores correctos.

Respuestas:


106

El problema terminó siendo un disipador de calor mal ajustado. Tal vez mal encajado no es la descripción correcta. Resulta que debes poner pasta térmica en el disipador térmico, no en la cubierta de plástico que cubre el disipador térmico.

ingrese la descripción de la imagen aquí

Después de quitar la cubierta de plástico, la CPU es agradable y genial, ¡gracias a todos!


51
+1 solo porque es divertido
HBruijn

99
¿Quieres decir que alguien dejó la cubierta de plástico en su lugar y luego le pegó y luego le puso el disipador de calor? Épico.
TomTom

44
Baaaaaahaaahaaahahahaa !!
Craig

8
Me encanta cómo puedes ver los términos y condiciones, la garantía limitada y la política de devoluciones en el fondo. :)
Lightness compite con Monica el

66
Si te hace sentir menos estúpido (y no lo hará), hice algo similar con mi nueva cafetera de oficina. El café estaba demasiado frío para beber y lo estaba empacando para volver a la tienda antes de que un disco de cartón protector cayera del elemento calefactor :)
Martin James

25

En mi experiencia, es normal que los componentes emparejados en un caso funcionen a diferentes temperaturas, porque el flujo de aire no es el mismo en todas partes. Aquí hay un gráfico de la temperatura del disco duro de mi caja colo. Las unidades se reflejan, por lo que las cargas de trabajo en ellas son casi idénticas.

gráfico de munin de las temperaturas de HDD durante el año pasado

Como puede ver, se rastrean entre sí, pero no son lo mismo; También están, en promedio, a solo 6 ° C de distancia. Ya sea que sus sensores reporten temperatura absoluta o sobretemperatura, una diferencia de 55C bajo carga parece muy mal. Si tiene confianza en que los datos son correctos, dado que la diferencia de reposo cae a 10 ° C, que es el tipo de diferencia que veo debido al flujo de aire, sospecho que hay un disipador de calor mal ajustado.


1
Usando mpstat (de Christopher Perrin, ¡gracias!) Confirmé que la carga se distribuye de manera bastante uniforme. Las cosas están inactivas en este momento a + 3C y + 20C. Voy a intentar jugar con el disipador de calor para ver si está suelto. ¿Crees que podría ser un problema de pasta térmica?
samoz

Eso es muy posible (y más aún después de comenzar a moverlo).
MadHatter apoya a Monica el

8

No lo es. A menos que tenga algunos problemas graves con el flujo de aire. O uno de los refrigeradores es malo. La temperatura variará, pero no tanto (70 vs. 15 grados centígrados).

Dado lo bajo que es 15 grados, supongo que (a) su sensor está apagado (¿realmente almacena el servidor en esa habitación fría?).

También asumiría que una de las CPU simplemente no funciona en absoluto, por cualquier razón.

Pequeñas diferencias son normales. Algunos pequeños más grandes pueden ser (el flujo de aire viene a mi mente). pero aquí hablamos de que uno está FRÍO.


2

Esto podría ser una carga de enfriamiento o desigual (dada la diferencia de temperatura, su situación probablemente sea una carga desigual). Debería usar algo como prime95 para cargar todos los núcleos de manera uniforme y ver si las temperaturas aún varían. Si no lo hacen, entonces necesita equilibrar las máquinas virtuales, verifique que sus aplicaciones sean multiproceso y estén ocupadas. Cómo hacerlo depende de su software y la carga de trabajo individual, por lo que realmente está fuera del alcance de la pregunta. Tenga en cuenta que no hay una ventaja real al hacer esto si no tiene suficiente carga para completar una sola CPU / núcleo, de hecho, su VM puede evitar deliberadamente el uso de una segunda CPU para que pueda entrar en modos de ahorro de energía en múltiples -sistemas de CPU.

Si lo ha reducido a enfriamiento. Una pequeña diferencia de hasta 10C podría ser muy poca (¡o demasiado!) Pasta térmica. Una diferencia mayor indica un problema o diferencia significativa entre los enfriadores de la CPU. Puede ser que se haya bloqueado el flujo de aire, se haya soltado un disipador térmico, etc.


0

Tendría que estar de acuerdo con la temperatura defectuosa. sensor, ya que 15C es solo 59F !!! A menos que la computadora esté en un centro de datos extremadamente frío, ¡me imagino que la temperatura del aire ambiente sería superior a 59F! Intenta asignar las máquinas virtuales al núcleo de baja temperatura y ver si hay algún cambio; si no, sospecharía que el sensor está defectuoso.

También es posible que desee ver la salida de dmesg(mensajes de arranque) y ver si hay algo fuera de lo común allí.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.