"Big data" está en todas partes en los medios. Todos dicen que "big data" es lo más importante para 2012, por ejemplo, la encuesta de KDNuggets sobre temas candentes para 2012 . Sin embargo, tengo profundas preocupaciones aquí. Con Big Data, todo el mundo parece estar feliz de sacar algo . Pero, ¿no estamos violando todos los principios estadísticos clásicos, como las pruebas de hipótesis y el muestreo representativo?
Mientras hagamos solo predicciones sobre el mismo conjunto de datos, esto debería estar bien. Entonces, si uso datos de Twitter para predecir el comportamiento del usuario de Twitter, probablemente esté bien. Sin embargo, el uso de datos de Twitter para predecir, por ejemplo, elecciones, descuida completamente el hecho de que los usuarios de Twitter no son una muestra representativa de toda la población. Además, la mayoría de los métodos en realidad no podrán diferenciar entre un verdadero estado de ánimo "de base" y una campaña. Y Twitter está lleno de campañas. Entonces, al analizar Twitter, terminas rápidamente midiendo campañas y bots. (Ver, por ejemplo, "Yahoo predice los ganadores políticos de Estados Unidos"que está lleno de críticas y "el análisis de sentimientos es mucho mejor". Predijeron que "Romney tiene más del 90 por ciento de probabilidades de ganar la nominación y de ganar las primarias de Carolina del Sur" (tenía 28%, mientras que Gingrich tenía 40% en estas primarias).
¿Sabes que otros datos tan grandes fallan ? Recuerdo aproximadamente que un científico predijo que no podías mantener más de 150 amistades. En realidad solo había descubierto un límite de límite en Friendster ...
En cuanto a los datos de Twitter, o en realidad cualquier "gran información" recopilada de la web, creo que a menudo las personas incluso introducen sesgos adicionales por la forma en que recopilan sus datos. Pocos tendrán todo Twitter. Tendrán un cierto subconjunto que analizaron, y este es solo otro sesgo en su conjunto de datos.
Dividir los datos en un conjunto de prueba o para hacer una validación cruzada probablemente no ayuda mucho. El otro conjunto tendrá el mismo sesgo. Y para Big Data, necesito "comprimir" mi información con tanta fuerza que es poco probable que me sobreajuste.
Hace poco escuché esta broma, con el científico de Big Data que descubrió que hay aproximadamente 6 sexos en el mundo ... y puedo imaginar que esto suceda ... "Hombre, mujer, orco, peludo, sí y no".
Entonces, ¿qué métodos tenemos para recuperar cierta validez estadística en el análisis, en particular cuando tratamos de predecir algo fuera del conjunto de datos "big data"?