Michael tiene razón en que la comunidad está un poco fracturada en este momento, y la documentación es un poco escasa.
En realidad, está todo ahí, es imposible de entender. Lo que realmente quiere es el libro electrónico "Explicación de la configuración del marcapasos" ... ( Enlace a PDF ). Querrás leerlo una docena de veces, y luego tratar de implementarlo, y luego leerlo una docena de veces para que puedas asimilarlo.
La implementación más compatible de los servicios de clúster para Linux en este momento probablemente sea el SLES11 de Novell y su Extensión de alta disponibilidad (HAE). Acaba de salir hace un mes o dos, y viene con un buen manual grueso de 200 páginas que describe cómo configurarlo y hacer que las cosas funcionen. Novell también ha sido excelente sobre el soporte de configuraciones de marcapasos en varias formas.
Más allá de eso, está la implementación de RHEL5, que tiene el mismo paquete y documentación decente, pero creo que es más costosa que SLES. Al menos, es para nosotros.
Evitaría Heartbeat en este momento e iría con Pacekmaker / OpenAIS porque estarán mucho mejor respaldados en el futuro. SIN EMBARGO, el estado actual de la comunidad es tal que hay algunos expertos, hay algunas personas que lo manejan en producción y hay un montón de personas que no tienen ni idea. Únase a la lista de correo de Marcapasos y preste atención a un hombre llamado Andrew Beekhof.
Editar para proporcionar los detalles solicitados:
Pacemaker / OpenAIS utiliza una operación 'monitor' en un 'recurso primitivo' (por ejemplo, nfs-server) para realizar un seguimiento de lo que está haciendo el recurso. Si el servidor NFS de ejemplo no responde al resto del clúster durante X número de segundos, entonces el clúster ejecutará una operación STONITH (Disparar el otro nodo en la cabeza) para cerrar el nodo primario, promoviendo el nodo secundario a activo. En la configuración, usted decide qué traer a continuación y las acciones asociadas a realizar. Los detalles de implementación a partir de ahí dependen del servicio en el que intente realizar la conmutación por error, las ventanas de ejecución para ciertas operaciones (como la promoción del nodo primario a maestro) y todo es lo más configurable posible.