Uno de los principales ejemplos que se utiliza para demostrar el poder de MapReduce es el punto de referencia Terasort . Tengo problemas para comprender los conceptos básicos del algoritmo de clasificación que se utiliza en el entorno MapReduce.
Para mí, clasificar simplemente implica determinar la posición relativa de un elemento en relación con todos los demás elementos. Por tanto, clasificar implica comparar "todo" con "todo". Su algoritmo de clasificación promedio (rápido, burbuja, ...) simplemente lo hace de una manera inteligente.
En mi opinión, dividir el conjunto de datos en muchas partes significa que puede ordenar una sola pieza y luego todavía tiene que integrar estas partes en el conjunto de datos 'completo' completamente ordenado. Dado el conjunto de datos de terabytes distribuidos en miles de sistemas, espero que esta sea una tarea enorme.
Entonces, ¿cómo se hace esto realmente? ¿Cómo funciona este algoritmo de clasificación MapReduce?
Gracias por ayudarme a entender.