Como notará correctamente, en estos días "big data" es algo que todos quieren decir que tienen, lo que implica una cierta flexibilidad en la forma en que las personas definen el término. Sin embargo, en general, diría que ciertamente está tratando con Big Data si la escala es tal que ya no es factible administrar con tecnologías más tradicionales como RDBMS, al menos sin complementarlas con tecnologías de Big Data como Hadoop.
El tamaño de sus datos debe ser realmente para que ese sea el caso es discutible. Aquí hay una publicación de blog (algo provocativa) que afirma que no es realmente el caso de menos de 5 TB de datos. (Para ser claros, no dice "Menos de 5 TB no es un gran dato", sino solo "Menos de 5 TB no es lo suficientemente grande como para que necesite Hadoop").
Pero incluso en conjuntos de datos más pequeños, las tecnologías de big data como Hadoop pueden tener otras ventajas, como ser muy adecuadas para operaciones por lotes, jugar bien con datos no estructurados (así como datos cuya estructura no se conoce de antemano o podría cambiar), escalabilidad horizontal ( escalar agregando más nodos en lugar de reforzar sus servidores existentes), y (como uno de los comentaristas en las notas de publicación vinculadas anteriormente) la capacidad de integrar su procesamiento de datos con conjuntos de datos externos (piense en un mapa de reducción donde el mapeador hace una llamada a otro servidor). Otras tecnologías asociadas con big data, como las bases de datos NoSql, enfatizan el rendimiento rápido y la disponibilidad constante al tratar con grandes conjuntos de datos, además de ser capaces de manejar datos semiestructurados y escalar horizontalmente.
Por supuesto, los RDBMS tradicionales tienen sus propias ventajas, incluidas las garantías de ACID (Atomicidad, Consistencia, Aislamiento, Durabilidad) y un mejor rendimiento para ciertas operaciones, además de ser más estandarizados, más maduros y (para muchos usuarios) más familiares. Por lo tanto, incluso para datos "grandes" indiscutibles, puede tener sentido cargar al menos una parte de sus datos en una base de datos SQL tradicional y usarlos junto con tecnologías de grandes datos.
Por lo tanto, una definición más generosa sería que tiene grandes datos siempre y cuando sea lo suficientemente grande como para que las tecnologías de grandes datos le brinden algún valor agregado. Pero, como puede ver, eso puede depender no solo del tamaño de sus datos, sino de cómo desea trabajar con ellos y qué tipo de requisitos tiene en términos de flexibilidad, consistencia y rendimiento. ¿Cómo estás usando sus datos es más relevante para la cuestión de lo que lo está utilizando para (por ejemplo, la minería de datos). Dicho esto, los usos como la minería de datos y el aprendizaje automático tienen más probabilidades de producir resultados útiles si tiene un conjunto de datos lo suficientemente grande para trabajar.