Directamente de la boca del caballo :
Hadoop es un marco para ejecutar aplicaciones en grandes clústeres creados con hardware básico. El marco Hadoop proporciona de forma transparente aplicaciones tanto de fiabilidad como de movimiento de datos. Hadoop implementa un paradigma computacional llamado Map / Reduce, donde la aplicación se divide en muchos pequeños fragmentos de trabajo, cada uno de los cuales se puede ejecutar o volver a ejecutar en cualquier nodo del clúster. Además, proporciona un sistema de archivos distribuido (HDFS) que almacena datos en los nodos de cómputo, proporcionando un ancho de banda agregado muy alto en todo el clúster. Tanto Map / Reduce como el sistema de archivos distribuido están diseñados para que el marco maneje automáticamente las fallas de los nodos.
Map / Reduce es un paradigma de programación que se hizo popular en Google, donde una tarea se divide en pequeñas porciones y se distribuye a un gran número de nodos para su procesamiento (mapa), y los resultados se resumen en la respuesta final (reducir ) Google y Yahoo usan esto para su tecnología de motor de búsqueda, entre otras cosas.
Hadoop es un marco genérico para implementar este tipo de esquema de procesamiento. En cuanto a por qué patea el culo, principalmente porque proporciona características ordenadas como la tolerancia a fallas y le permite reunir casi cualquier tipo de hardware para hacer el procesamiento. También se escala extremadamente bien, siempre que su problema se ajuste al paradigma.
Puedes leer todo sobre esto en el sitio web .
En cuanto a algunos ejemplos, Paul dio algunos, pero aquí hay algunos más que podría hacer que no estén tan centrados en la web:
- Renderizado de una película en 3D. El paso "mapa" distribuye la geometría de cada cuadro a un nodo diferente, los nodos lo procesan y los cuadros procesados se recombinan en el paso "reducir".
- Calcular la energía en un sistema en un modelo molecular. Cada cuadro de una trayectoria del sistema se distribuye a un nodo en el paso "mapa". Los nodos calculan la energía para cada cuadro,
y luego los resultados se resumen en el paso "reducir".
Esencialmente, el modelo funciona muy bien para un problema que puede desglosarse en cálculos discretos similares que son completamente independientes y pueden recombinarse para producir un resultado final.