¿Es relevante el muestreo en el momento del 'big data'?


54

¿O más, "será"? Big Data hace que las estadísticas y el conocimiento relevante sean aún más importantes, pero parece minimizar la teoría de muestreo.

He visto esta exageración sobre 'Big Data' y no puedo evitar preguntarme por qué "¿por qué" querría analizar todo ? ¿No había una razón para que la "Teoría de muestreo" fuera diseñada / implementada / inventada / descubierta? No entiendo el punto de analizar toda la 'población' del conjunto de datos. El hecho de que puedas hacerlo no significa que debas hacerlo (la estupidez es un privilegio pero no debes abusar de ella :)

Entonces mi pregunta es la siguiente: ¿es estadísticamente relevante analizar todo el conjunto de datos? Lo mejor que podría hacer sería minimizar el error si realizara el muestreo. ¿Pero realmente vale la pena el costo de minimizar ese error? ¿Realmente vale la pena el "valor de la información", el esfuerzo, el costo de tiempo, etc., que conlleva el análisis de grandes datos en computadoras masivamente paralelas?

Incluso si uno analiza a toda la población, el resultado sería, en el mejor de los casos, una suposición con una mayor probabilidad de tener razón. Probablemente un poco más alto que el muestreo (¿o sería mucho más?) ¿La percepción obtenida del análisis de la población frente al análisis de la muestra diferiría ampliamente?

¿O deberíamos aceptarlo como "los tiempos han cambiado"? El muestreo como actividad podría volverse menos importante dada la potencia computacional suficiente :)

Nota: No estoy tratando de iniciar un debate, sino que estoy buscando una respuesta para entender por qué Big Data hace lo que hace (es decir, analizar todo) y no tener en cuenta la teoría del muestreo (¿o no lo hace?)


1
Consulte también: stats.stackexchange.com/q/22502/7828 : cómo sacar conclusiones válidas de Big Data.
Anony-Mousse

2
(Hace +1 mucho tiempo) Siempre disfruto leyendo tus preguntas perspicaces. Son un activo real para este sitio.
cardenal

1
@cardinal - Agradezco sinceramente tu comentario. Significa mucho viniendo de ti.
PhD

Respuestas:


29

En una palabra, si . Creo que todavía hay situaciones claras en las que el muestreo es apropiado, dentro y fuera del mundo de los "grandes datos", pero la naturaleza de los grandes datos ciertamente cambiará nuestro enfoque al muestreo, y utilizaremos más conjuntos de datos que son representaciones casi completas de la información subyacente. población.

Sobre el muestreo: Dependiendo de las circunstancias, casi siempre estará claro si el muestreo es algo apropiado. El muestreo no es una actividad inherentemente beneficiosa; es justo lo que hacemos porque necesitamos compensar el costo de implementar la recopilación de datos. Estamos tratando de caracterizar las poblaciones y necesitamos seleccionar el método apropiado para recopilar y analizar datos sobre la población. El muestreo tiene sentido cuando el costo marginal de un método de recolección o procesamiento de datos es alto. Tratar de llegar al 100% de la población no es un buen uso de los recursos en ese caso, porque a menudo es mejor abordar cosas como el sesgo de no respuesta que hacer pequeñas mejoras en el error de muestreo aleatorio.

¿Cómo es diferente el big data? "Big data" aborda muchas de las mismas preguntas que hemos tenido durante años, pero lo que es "nuevo" es que la recopilación de datos se realiza a partir de un proceso existente, mediado por computadora, por lo que el costo marginal de recopilar datos es esencialmente cero. Esto reduce drásticamente nuestra necesidad de muestreo.

¿Cuándo seguiremos usando el muestreo? Si su población de "big data" es la población adecuada para el problema, solo empleará el muestreo en algunos casos: la necesidad de ejecutar grupos experimentales separados, o si el volumen de datos es demasiado grande para capturar y procesar (muchos de nosotros podemos manejar millones de filas de datos con facilidad hoy en día, por lo que el límite aquí se está alejando cada vez más). Si parece que estoy descartando su pregunta, probablemente sea porque rara vez me he encontrado con situaciones en las que el volumen de datos era una preocupación, ya sea en las etapas de recopilación o procesamiento, aunque sé que muchos tienen

La situación que me parece difícil es cuando su población de "big data" no representa perfectamente a su población objetivo, por lo que las compensaciones son más manzanas por naranjas. Digamos que usted es un planificador de transporte regional, y Google le ha ofrecido darle acceso a sus registros de navegación GPS de Android para ayudarlo. Si bien el conjunto de datos sin duda sería interesante de usar, la población probablemente estaría sesgada sistemáticamente contra los usuarios de bajos ingresos, el transporte público y los ancianos. En tal situación, los diarios de viaje tradicionales enviados a una muestra aleatoria de hogares, aunque más costosos y más pequeños en número, aún podrían ser el método superior de recopilación de datos. Pero, esto no es simplemente una cuestión de "muestreo versus big data", es '


22

Si bien puede haber una gran cantidad de Big Data producida por los dispositivos móviles y demás, hay pocos datos utilizables en ella. Si desea predecir los patrones de viaje urbano usando foursquare, es posible que se desplace por un orden de magnitud en los flujos estimados. Peor aún, no sabrá si está sobreestimado o subestimando estos flujos. Puede obtener una imagen increíblemente precisa de los patrones de viaje urbano de los usuarios de foursquare maníacos, pero a menos que se requiera que todos (1) mantengan un teléfono inteligente en funcionamiento, (2) para ejecutar la aplicación foursquare todo el tiempo y (3) para registrarse en cualquier lugar en el que permanezcan por más de 10 minutos (es decir, obtenga un Censo electrónico; deje que los libertarios se quejen de que Google y Facebook sepan todo sobre usted), sus datos contendrán prejuicios desconocidos y sus Deweys electrónicos continuarán venciendo la palabra real Trumans (se puede hacer clic):


(fuente: whatisasurvey.info )

En todo caso, esperaría que esta parte de la historia se repita, y algunos grandes pronósticos de "cerveza + pañales" producidos a partir de Big Data serían anulados por los investigadores utilizando enfoques de muestreo más rigurosos. Es sorprendente que las encuestas basadas en la probabilidad sigan siendo precisas incluso a pesar de la caída de las tasas de respuesta.


1
(+1) Pero, ¿no sería un usuario estereotípico de foursquare la antítesis de paranoico ? ;-)
cardenal

1
Sí ... probablemente un mal término. Déjame cambiar eso a maníaco!
StasK

2
Big data no es el culpable. Es como se usa. Cuando tiene información y se aplica adecuadamente, puede ser muy útil. La minería de datos no es del todo mala.
Michael Chernick

Gran punto sobre el uso de big data para la información del tráfico. Dado que empresas como Google y Apple ya lo hacen, creo que este es un gran ejemplo de dónde (actualmente disponible) los grandes datos pueden fallar para algunos públicos, y también traté de incorporarlos en mi respuesta.
Jonathan

@Michael, tienes razón, por supuesto. Los datos son muy baratos, pero las formas de obtener información utilizable no disminuyen; en todo caso, aumentan, ya que ahora uno tiene que examinar más datos para obtener la información útil.
StasK

21

Siempre que se apliquen técnicas de inferencia estadística, es importante ser claro en cuanto a la población sobre la que se pretende sacar conclusiones. Incluso si los datos que se han recopilado son muy grandes, pueden estar relacionados solo con una pequeña parte de la población y pueden no ser muy representativos del conjunto.

Supongamos, por ejemplo, que una empresa que opera en una determinada industria ha recopilado 'grandes datos' sobre sus clientes en un determinado país. Si quiere usar esos datos para sacar conclusiones sobre sus clientes existentes en ese país, entonces el muestreo podría no ser muy relevante. Sin embargo, si quiere sacar conclusiones sobre una población más grande, tanto clientes potenciales como existentes, o clientes en otro país, entonces es esencial considerar en qué medida los clientes sobre los que se han recopilado datos son representativos, tal vez en ingresos, edad , género, educación, etc. - de la población en general.

La dimensión del tiempo también debe ser considerada. Si el objetivo es utilizar la inferencia estadística para respaldar las predicciones, se debe entender que la población se extenderá hacia el futuro. Si es así, nuevamente es esencial considerar si el conjunto de datos, por grande que sea, se obtuvo en circunstancias representativas de las que pueda obtener en el futuro.


¡Bienvenido a nuestro sitio, Adam! (Si se registra regularmente, incluso encontrará oportunidades ocasionales para ejercer sus intereses en geometría y teoría de números . :-)
whuber

¡Gran punto sobre la necesidad de considerar a la población! Esa es una de las grandes formas en que las personas pueden ser perezosas con los grandes datos.
Jonathan

"Incluso si los datos que se han recopilado son muy grandes, pueden relacionarse solo con una pequeña parte de la población, y pueden no ser muy representativos del conjunto". Creo que esta oración sola responde a muchas preguntas.
Bemipefe

13

Por lo que he visto de la moda de Big Data / ML, pensar en el muestreo y la población de la que se extrae su muestra es tan importante como siempre, pero pensé en menos.

Estoy "auditando" la clase de Stanford ML, y hasta ahora hemos cubierto la regresión y las redes neuronales sin mencionar la inferencia de la población. Dado que esta clase ha sido tomada por 6 personas, ahora hay muchísimas personas que saben cómo ajustar los datos con mucha voluntad sin ninguna noción de la idea de una muestra.


3
Estoy completamente de acuerdo. Al observar la locura actual sobre el aprendizaje automático (profesionales y programadores en su mayoría), Big Data y "ciencia de datos", encuentro ridículamente común que las personas ignoren por completo el muestreo, la inferencia, la comprensión y el significado del razonamiento estadístico y lo sacrifiquen por aplicar ciegamente lo que sea El algoritmo está de moda. Incluso puede ver eso con preguntas y algunas respuestas aquí en validación cruzada. Es por eso que también creo que es una exageración que pronto quedará obsoleta o tomará prestada la epistemología estadística y, por lo tanto, se convertirá en una rama de las estadísticas (de todos modos lo veo como tal).
Momo

2
Si esa clase de ML es similar a una que audité hace algún tiempo, hubo una suposición técnica que se deslizó justo antes de la desigualdad de Hoeffding de que los datos de entrenamiento son una muestra perfectamente aleatoria de la población. Desafortunadamente, este casi nunca es el caso, al menos en mi experiencia, y en los ejemplos de aplicaciones de las técnicas a lo largo del curso. Todavía no es el caso cuando usas "big data".
Douglas Zare

12

Sí, el muestreo es relevante y seguirá siéndolo. La conclusión es que la precisión de una estimación estadística generalmente es una función del tamaño de la muestra, no de la población a la que queremos generalizar. Por lo tanto, una proporción media o promedio calculada a partir de una muestra de 1,000 encuestados arrojará una estimación de una cierta precisión (con respecto a toda la población de la que tomamos muestras), independientemente del tamaño de la población (o "qué tan grande" el " grandes datos "son son).

Dicho esto: Hay problemas y desafíos específicos que son relevantes y deben mencionarse:

  1. Tomar una buena muestra de probabilidad no siempre es fácil. Teóricamente, cada individuo de la población a la que queremos generalizar (sobre el que queremos hacer inferencias) debe tener una probabilidad conocida de ser seleccionado; idealmente, esa probabilidad debería ser la misma (muestra de probabilidad igual o EPSEM - Probabilidad de selección igual). Esa es una consideración importante y uno debe tener una comprensión clara de cómo el proceso de muestreo asignará probabilidades de selección a los miembros de la población a los que se quiere generalizar. Por ejemplo, ¿puede uno derivar de Twitter alimenta estimaciones precisas de los sentimientos generales de la población en general, incluidas aquellas personas sin cuentas de Twitter?
  2. Big data puede contener detalles e información muy complejos; Dicho de otra manera, el problema no es el muestreo, sino la (micro) segmentación, sacando los detalles correctos para un pequeño subconjunto de observaciones que son relevantes. Aquí el desafío no es el muestreo, sino identificar la estratificación y segmentación específicas de los grandes datos que producen la información procesable más precisa que puede convertirse en información valiosa.
  3. Otra regla general de medición de opinión es que los errores y sesgos que no son de muestreo suelen ser mucho más grandes que los errores y sesgos de muestreo. El hecho de que procese cien mil millones de registros de encuestados que expresan una opinión no hace que los resultados sean más útiles si solo tiene datos de una submuestra de 1000 personas, en particular si las preguntas para la encuesta respectiva no se escribieron bien e indujeron sesgos.
  4. A veces se requiere un muestreo: por ejemplo, si uno construyera un modelo predictivo a partir de todos los datos, ¿cómo lo validaría? ¿Cómo compararía la precisión de los diferentes modelos? Cuando hay "grandes datos" (repositorios de datos muy grandes), uno puede construir múltiples modelos y escenarios de modelado para diferentes muestras, y validarlos (probarlos) en otras muestras independientes. Si se construyera un modelo para todos los datos, ¿cómo se validaría?

Puede consultar nuestra 'Revolución de Big Data' aquí.


1
¡Bienvenido a nuestro sitio, Kyra!
whuber

3

Muchos métodos de Big Data en realidad están diseñados alrededor del muestreo.

La pregunta debería estar más en la línea de:

¿No deberíamos utilizar también el muestreo sistemático con big data?

Muchas de las cosas de "big data" todavía son bastante frescas y, a veces, ingenuas. Los medios K, por ejemplo, pueden ser paralelos trivialmente y, por lo tanto, funcionan para "grandes datos" (no voy a hablar sobre los resultados, no son muy significativos; ¡y probablemente no sean muy diferentes a los obtenidos en una muestra!). Hasta donde yo sé, esto es lo que hace la implementación de k-means en Mahout.

Sin embargo, la investigación va más allá de la paralelización ingenua (que aún puede requerir una gran cantidad de iteraciones) y trata de hacer K-means en un número fijo de iteraciones. Ejemplo para esto:

  • Agrupación rápida utilizando MapReduce
    Ene, A. e Im, S. y Moseley, B.
    Actas de la 17ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos, 2011

Y adivina qué, su enfoque se basa en gran medida en el muestreo .

Siguiente ejemplo: bosques de decisión . Eso es esencialmente: para varias muestras del conjunto de datos, construya un árbol de decisión cada una. Puede volverse paralelizado trivialmente: coloque cada muestra en una máquina separada. Y nuevamente, es un enfoque basado en muestreo.

¡Entonces el muestreo es uno de los ingredientes clave para los enfoques de big data!

Y no hay nada de malo en esto.


2

La validación cruzada es un ejemplo específico de submuestreo que es bastante importante en ML / big data. En términos más generales, los grandes datos siguen siendo una muestra de una población, como han mencionado otras personas aquí.

Pero, creo que OP podría referirse específicamente al muestreo, ya que se aplica a experimentos controlados, en comparación con los datos de observación. Por lo general, los grandes datos se consideran los últimos, pero para mí al menos hay excepciones. Pensaría en los ensayos aleatorios, las pruebas A / B y los bandidos de múltiples grupos en el comercio electrónico y la configuración de las redes sociales como ejemplos de "muestreo en entornos de big data".


1

En las áreas donde Big Data está ganando popularidad: Búsqueda, Publicidad, Sistemas de recomendación como Amazon, Netflix, existe un gran incentivo para explorar todo el conjunto de datos.

El objetivo de estos sistemas es adaptar las recomendaciones / sugerencias a cada miembro de la población. Además, el número de atributos que se estudian es enorme. El sistema de análisis web promedio puede medir la tasa de clics, el "seguimiento térmico" de las "áreas calientes" en una página, las interacciones sociales, etc. y compararlas con un amplio conjunto de objetivos predeterminados.

Más importante aún, la mayoría de los lugares donde Big Data ahora es omnipresente son flujos de datos "en línea", es decir, los datos se agregan / actualizan constantemente. Diseñar un esquema de muestreo que cubra todos estos atributos sin un sesgo inherente y aún así ofrecer resultados prometedores (leer mejores márgenes) es un desafío.

El muestreo sigue siendo muy relevante para encuestas, ensayos médicos, pruebas A / B y garantía de calidad.

En pocas palabras, el muestreo es muy útil cuando la población a estudiar es muy grande y le interesan las propiedades macroscópicas de la población. La comprobación al 100% (Big Data) es necesaria para explotar las propiedades microscópicas del sistema.

Espero que esto ayude :)


Entonces, ¿es su punto de vista que no quieren poder generalizar más allá de los datos que tienen a los datos que aún no tienen? ¿O que piensan que su muestra es tan grande que no tienen que preocuparse por esos problemas? O que los parámetros subyacentes cambiarían con el tiempo, ¿no importa mientras continúen actualizándose a medida que ingresen nuevos datos?
gung - Restablece a Monica

@gung el problema no es el tamaño de la muestra, sino el problema de generar una muestra imparcial para un conjunto de datos que tiene una gran cantidad de atributos. Y la generalización generalmente se realiza mediante algoritmos de Machine Learning, entrenados en una parte del conjunto de datos. Los flujos de datos en línea que ingresan constantemente hacen que el problema del muestreo sea secundario ya que las actualizaciones por lotes se pueden usar para cambiar los parámetros.
rrampage
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.