Hemos estado ejecutando un par de sitios web fuera de la infraestructura de Amazon AWS durante aproximadamente dos años y desde hace aproximadamente dos días el servidor web comenzó a fallar una o dos veces al día con el único error que puedo encontrar:
HTTP/1.1 503 Service Unavailable: Back-end server is at capacity
CloudWatch no activa alarmas (CPU / Disk IO / DB Conn). Intenté ir al sitio a través de la IP elástica para omitir el ELB y obtuve esto:
HTTP request sent, awaiting response... Read error (Connection reset by peer) in headers. Retrying.
No veo nada fuera de lo común en los registros de apache y verifiqué que se estaban rotando correctamente. No tengo problemas para acceder a la máquina cuando está "inactiva" a través de SSH y al mirar la lista de procesos veo 151 procesos apache2 que me parecen normales. Reiniciar apache soluciona temporalmente el problema. Esta máquina funciona como un servidor web detrás de un ELB. Cualquier sugerencia sería muy apreciada.
Promedio de utilización de CPU: 7.45%, mínimo: 0.00%, máximo: 25.82%
Uso de memoria Promedio: 11.04%, Mínimo: 8.76%, Máximo: 13.84%
Intercambio de utilización Promedio: N / A, Mínimo: N / A, Máximo: N / A
Utilización de espacio en disco para / dev / xvda1 montado en / Promedio: 62.18%, Mínimo: 53.39%, Máximo: 65.49%
Permítanme aclarar que creo que el problema es con la instancia individual de EC2 y no con el ELB. Simplemente no quería descartarlo a pesar de que no pude alcanzar la IP elástica. Sospecho que ELB solo está devolviendo los resultados de golpear la instancia EC2 real.
Actualización: 2014-08-26 Debería haber actualizado esto antes, pero la "solución" fue tomar una instantánea de la instancia "mala" e iniciar el AMI resultante. No ha bajado desde entonces. Observé la comprobación de estado cuando aún experimentaba problemas y podía acceder a la página de comprobación de estado ( curl http://localhost/page.html
) incluso cuando recibía problemas de capacidad del equilibrador de carga. No estoy convencido de que se tratara de un problema de control de salud, pero como nadie, incluida Amazon, puede proporcionar una mejor respuesta, lo marco como la respuesta. Gracias.
Actualización: 2015-05-06 Pensé en volver aquí y decir que parte del problema que ahora creo firmemente era la configuración del control de salud. No quiero descartar que sean un problema con el AMI porque definitivamente mejoró después de que se lanzó el AMI de reemplazo, pero descubrí que nuestros controles de salud eran diferentes para cada equilibrador de carga y que el que tenía más problemas tenía un umbral insalubre realmente agresivo y un tiempo de espera de respuesta. Nuestro tráfico tiende a aumentar impredeciblemente y creo que entre los ajustes agresivos de control de salud y los aumentos en el tráfico fue una tormenta perfecta.