¿Cómo puedo mitigar la necesidad de intervención manual con Raspberry Pis implementado de forma remota?

Estoy trabajando en un proyecto que utiliza Raspberry Pis que se implementará en varios lugares. Tienen un hardware especial conectado para fines de automatización y ejecutan un servicio web (que escribí) para acceder al hardware. Ocasionalmente, implementaremos un nuevo software en el método Pis, aún por determinar, y esta es un gran área de preocupación.

Mi pregunta: ¿Puede nombrar algunas ideas o mejores prácticas para mitigar la necesidad de intervención manual en caso de problemas? Me pregunto si hay algún tipo de solución de vigilancia mediante la cual el Pi se reinicia normalmente en caso de un bloqueo (¿tal vez incapacidad para llamar a casa?), Y si aún no funciona, se reinicia en una partición a prueba de fallas que puede "llamar a casa" para obtener una solución (ya sea reimagen o reiniciar normalmente si solo hubo una interrupción de la red).

Realmente no estoy seguro de qué es exactamente lo que estoy buscando, solo formas que nos evitarán tener que llamar o enviar personas para que realicen reinicios o reimpresiones manuales. Un esquema de partición dual parece que puede ser útil, pero tal vez haya mejores ideas.

— BobIsNotMyName
fuente

Para empezar, eche un vistazo aquí raspberrypi.stackexchange.com/questions/1401/…

— Steve Robillard

Gracias ... He mirado eso, pero no demasiado nuevo allí. Sé que utilizar el perro guardián del hardware ayudará en cierta medida.

— BobIsNotMyName

Esta respuesta no es específica de la frambuesa pi, pero es un consejo general para servidores administrados remotos.

ssh Usar un shell seguro es casi tan bueno como estar allí.
consola serial y administración fuera de banda: si arruinas tu interfaz de red, tener una segunda forma de iniciar sesión es un salvavidas. una manera simple sería tener una máquina de respaldo idéntica ejecutándose como un modo de espera activo con un par de conexiones en serie entre ellas para que cada una pueda recargar la otra.
Control remoto de energía: muchos centros de datos pueden fallar los servidores que no funcionan de manera remota. Caro pero muy agradable.
correo electrónico: si instala nullmailer y logwatch obtendrá informes de estado diarios que pueden ayudarlo a detectar fallas temprano.
Nota específica de rpi: no almacene / var o / tmp en una tarjeta SD, ya que acortará la vida útil de la tarjeta SD.

— hildred
fuente