¿Rastreando excepciones y errores en dispositivos de IoT de producción?

¿Cómo están rastreando las empresas los errores en dispositivos IoT, puertas de enlace y plataformas en la actualidad? Mi compañía está usando el papertrail para agregar registros de todos los dispositivos, sin embargo, esto a menudo nos deja rascando entre múltiples sistemas cuando se produce un error en la producción.

Estoy buscando una manera de reducir nuestro "tiempo de origen" al resolver excepciones que pueden haberse generado en un lugar (por ejemplo, en una plataforma IoT), pero que se han originado como resultado de un problema en otra parte del pila: por ejemplo, error de datos del dispositivo de borde.

En términos de lo que he encontrado en este espacio, Sentry y Rollbar son buenos para el seguimiento de excepciones en servidores o aplicaciones, pero no proporcionan un medio para rastrear errores en cascada como se discutió en el párrafo anterior.

¿Hay sistemas para hacerlo mejor que el registro de texto? Estoy buscando específicamente hacer uso de los eventos de estilo de migas de pan que obtienes de Sentry, pero con seguimiento a través de un sistema distribuido.

remote-access product-design

— hookd
fuente

Rastreo distribuido

La idea detrás de cualquier rastreo distribuido que valga la pena se conoce más comúnmente descrito en este documento técnico de Google sobre su solución Dapper . Tenga en cuenta que no estoy diciendo que lo inventaron. En esencia, funciona de la misma manera para IoT, solo comience el rastreo en el borde, ya sea de su backend o incluso en los dispositivos finales.

Si bien el documento técnico de Google se centra más o menos en los sistemas del lado del servidor, el concepto se puede adaptar fácilmente para incluir dispositivos finales. La magia de usar los identificadores de rastreo y extensión para rastrear toda su información a través de los sistemas se puede ver en cada visualización que Netflix hace a través de Vizceral, que recientemente han abierto. Lo que se visualiza en el blog en Vista regional se basa completamente en análisis de registros en vivo donde las llamadas se correlacionan a través de identificadores de rastreo. Tenga en cuenta que, como menciona Google en el artículo de Dapper, Netflix tiene una muestra de las llamadas en su API. Google mencionó 1: 1000 en el documento, que tiene algunos años. Aparentemente, Netflix ha alcanzado 1: 1 millón en algunos de sus tipos de solicitud ya.

No sé acerca de su sistema, pero es muy probable que pueda comenzar con un seguimiento real del 100%.

De cualquier manera, siempre que pueda hacer coincidir la traza desde el principio con sus dispositivos IoT o incluso crear los identificadores de traza en sus puntos finales, en primer lugar, no hay nada que le impida adaptar estas ideas de una manera que incluya sus dispositivos de borde.

— Helmar
fuente

Gracias Helmar, ¡desearía haber mencionado a Dapper en mi pregunta original porque ya había estado leyendo sobre esa área! Ciertamente hay posibilidades de hacer uso de esto, pero ¿también esperaba ver si hay otras soluciones existentes que ya están en uso?

— hookd 01 de