Estoy tratando de entender cómo todos los componentes de "big data" juegan juntos en un caso de uso del mundo real, por ejemplo, hadoop, monogodb / nosql, storm, kafka, ... Sé que esta es una gama bastante amplia de herramientas utilizadas para diferentes tipos, pero me gustaría conocer más acerca de su interacción en las aplicaciones, por ejemplo, el aprendizaje automático para una aplicación, una aplicación web o una tienda en línea.
Tengo visitantes / sesión, datos de transacciones, etc. y los guardo; pero si quiero hacer recomendaciones sobre la marcha, no puedo ejecutar trabajos de mapa lento / reducir para eso en alguna gran base de datos de registros que tengo. ¿Dónde puedo obtener más información sobre los aspectos de infraestructura? Creo que puedo usar la mayoría de las herramientas por su cuenta, pero conectarlas entre sí parece ser un arte en sí mismo.
¿Hay ejemplos públicos / casos de uso, etc. disponibles? Entiendo que las canalizaciones individuales dependen en gran medida del caso de uso y del usuario, pero solo ejemplos probablemente me serán muy útiles.