Revisando la presentación y el material de Summingbird por Twitter, una de las razones que se mencionan para usar los clústeres de Storm y Hadoop juntos en Summingbird es que el procesamiento a través de Storm produce una cascada de errores. Para evitar esta cascada de errores y su acumulación, el clúster Hadoop se usa para procesar por lotes los datos y descartar los resultados de Storm después de que Hadoop procese los mismos datos.
¿Cuáles son las razones para generar esta acumulación de error? ¿Y por qué no está presente en Hadoop? Como no he trabajado con Storm, no sé los motivos. ¿Es porque Storm usa algún algoritmo aproximado para procesar los datos para procesarlos en tiempo real? o es la causa otra cosa?