MS acaba de tener una charla tecnológica en los Países Bajos donde discutieron algunas de estas cosas. Comienza lentamente, pero se mete en la carne de Hadoop alrededor de los 20 minutos.
La esencia de esto es que "depende". Si tiene un conjunto de datos sensiblemente organizado (al menos algo) fácil de particionar que (al menos algo) es homogéneo, debería ser bastante fácil escalar a esos altos volúmenes de datos con un RDBMS, dependiendo de lo que esté haciendo .
Hadoop y MR parecen estar más orientados a situaciones en las que se ve obligado a realizar grandes escaneos de datos distribuidos, especialmente cuando esos datos no son necesariamente tan homogéneos o estructurados como lo que encontramos en el mundo RDBMS.
¿A qué limitaciones no están vinculadas las soluciones de Big Data? Para mí, la mayor limitación a la que no están obligados es tener que hacer un esquema rígido antes de tiempo. Con las soluciones de Big Data, inserta cantidades masivas de datos en la "caja" ahora y agrega lógica a sus consultas más adelante para abordar la falta de homogeneidad de los datos. Desde la perspectiva del desarrollador, la compensación es la facilidad de implementación y la flexibilidad en la parte frontal del proyecto, frente a la complejidad en las consultas y la consistencia de datos menos inmediata.