En muchas situaciones de la vida real en las que aplica MapReduce, los algoritmos finales terminan siendo varios pasos de MapReduce.
es decir, Mapa1, Reducir1, Mapa2, Reducir2, etc.
Entonces tiene la salida de la última reducción que se necesita como entrada para el siguiente mapa.
Los datos intermedios son algo que (en general) no desea conservar una vez que la canalización se ha completado con éxito. Además, debido a que estos datos intermedios son, en general, una estructura de datos (como un 'mapa' o un 'conjunto'), no desea poner demasiado esfuerzo en escribir y leer estos pares clave-valor.
¿Cuál es la forma recomendada de hacerlo en Hadoop?
¿Hay un ejemplo (simple) que muestre cómo manejar estos datos intermedios de la manera correcta, incluida la limpieza posterior?