Como Jimmy Lin y Chris Dyer señalan en el primer capítulo de su libro sobre Minería de texto intensiva en datos con MapReduce , a grandes escalas de datos, el rendimiento de diferentes algoritmos converge de tal manera que las diferencias de rendimiento prácticamente desaparecen. Esto significa que, dado un conjunto de datos lo suficientemente grande, el algoritmo que desearía usar es el que es computacionalmente menos costoso. Solo a escalas de datos más pequeñas importan las diferencias de rendimiento entre algoritmos.
Dicho esto, su libro (vinculado anteriormente) y Mining of Massive Datasets de Anand Rajaraman, Jure Leskovec y Jeffrey D. Ullman son probablemente dos libros que también querrá consultar, especialmente porque están directamente relacionados con MapReduce para fines de minería de datos.