¿O más, "será"? Big Data hace que las estadísticas y el conocimiento relevante sean aún más importantes, pero parece minimizar la teoría de muestreo.
He visto esta exageración sobre 'Big Data' y no puedo evitar preguntarme por qué "¿por qué" querría analizar todo ? ¿No había una razón para que la "Teoría de muestreo" fuera diseñada / implementada / inventada / descubierta? No entiendo el punto de analizar toda la 'población' del conjunto de datos. El hecho de que puedas hacerlo no significa que debas hacerlo (la estupidez es un privilegio pero no debes abusar de ella :)
Entonces mi pregunta es la siguiente: ¿es estadísticamente relevante analizar todo el conjunto de datos? Lo mejor que podría hacer sería minimizar el error si realizara el muestreo. ¿Pero realmente vale la pena el costo de minimizar ese error? ¿Realmente vale la pena el "valor de la información", el esfuerzo, el costo de tiempo, etc., que conlleva el análisis de grandes datos en computadoras masivamente paralelas?
Incluso si uno analiza a toda la población, el resultado sería, en el mejor de los casos, una suposición con una mayor probabilidad de tener razón. Probablemente un poco más alto que el muestreo (¿o sería mucho más?) ¿La percepción obtenida del análisis de la población frente al análisis de la muestra diferiría ampliamente?
¿O deberíamos aceptarlo como "los tiempos han cambiado"? El muestreo como actividad podría volverse menos importante dada la potencia computacional suficiente :)
Nota: No estoy tratando de iniciar un debate, sino que estoy buscando una respuesta para entender por qué Big Data hace lo que hace (es decir, analizar todo) y no tener en cuenta la teoría del muestreo (¿o no lo hace?)