Error en cascada en la tormenta de Apache


8

Revisando la presentación y el material de Summingbird por Twitter, una de las razones que se mencionan para usar los clústeres de Storm y Hadoop juntos en Summingbird es que el procesamiento a través de Storm produce una cascada de errores. Para evitar esta cascada de errores y su acumulación, el clúster Hadoop se usa para procesar por lotes los datos y descartar los resultados de Storm después de que Hadoop procese los mismos datos.

¿Cuáles son las razones para generar esta acumulación de error? ¿Y por qué no está presente en Hadoop? Como no he trabajado con Storm, no sé los motivos. ¿Es porque Storm usa algún algoritmo aproximado para procesar los datos para procesarlos en tiempo real? o es la causa otra cosa?

Respuestas:


4

Twitter usa Storm para el procesamiento de datos en tiempo real. Pueden ocurrir problemas con los datos en tiempo real. Los sistemas pueden fallar. Los datos pueden procesarse inadvertidamente dos veces. Las conexiones de red pueden perderse. Pueden pasar muchas cosas en un sistema en tiempo real.

Utilizan hadoop para procesar de manera confiable los datos históricos. No conozco detalles, pero, por ejemplo, obtener información sólida de registros agregados es probablemente más confiable que adjuntarlo a la secuencia.

Si simplemente confiaran en Storm para todo, Storm tendría problemas debido a la naturaleza de proporcionar información en tiempo real a escala. Si confiaron en hadoop para todo, hay una gran latencia involucrada. Combinar los dos con Summingbird es el siguiente paso lógico.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.