De las personas que administran sus propios clústeres (es decir, no utilizan / pagan Amazon Autoscale, Rightscale, Scalr, etc.), ¿cómo administran sus instancias en EC2 y manejan (por ejemplo) la conmutación por error? Me pregunto si la mayoría de la gente acaba de escribir sus propias cargas de scripts contra la API EC2, como sospecho.
Ese es sin duda nuestro enfoque: preparar nuestro propio demonio de monitoreo / reinicio basado en Python Boto que se ejecuta fuera del sitio, escuchando UDP UDP de nuestras instancias. En caso de falla, tomamos instantáneas de volúmenes, registramos imágenes, iniciamos nuevas instancias, eliminamos volúmenes antiguos, etc.
De vez en cuando, al piratear nuestros scripts, creo que debe haber algunas herramientas de código abierto que se encarguen de estos problemas y que no tengan las restricciones de (digamos) Scalr, pero siempre vuelvo de Google con las manos vacías. (Cosas como Scalr son bastante limitadas en el conjunto / versiones / configuraciones compatibles de software, y tienen formas engorrosas especializadas e IMO de manipular estas configuraciones).
Además, el ecosistema Linux-HA / Pacemaker (Heartbeat, ldirectord, etc.) parece que no es realmente adecuado para EC2 . (Pero luego encontré esto , aunque no estoy seguro de que sea realmente una solución de alta calidad).