Ha habido rumores durante años de que Google usa todas las funciones disponibles para construir sus algoritmos predictivos. Sin embargo, hasta la fecha, no han surgido descargos de responsabilidad, explicaciones o libros blancos que aclaren y / o discutan este rumor. Ni siquiera sus patentes publicadas ayudan en la comprensión. Como resultado, nadie externo a Google sabe lo que está haciendo, que yo sepa.
/ * Actualización en septiembre de 2019, un evangelista de Google Tensorflow fue registrado en una presentación al afirmar que los ingenieros de Google evalúan regularmente más de 5 mil millones de parámetros para la versión actual de PageRank . * /
Como señala el OP, uno de los mayores problemas en el modelado predictivo es la combinación entre la prueba de hipótesis clásica y la especificación cuidadosa del modelo frente a la minería de datos pura. Las personas con formación clásica pueden volverse bastante dogmáticas sobre la necesidad de "rigor" en el diseño y desarrollo de modelos. El hecho es que cuando se enfrenta con un gran número de predictores candidatos y múltiples objetivos posibles o variables dependientes, el marco clásico no funciona, se mantiene ni proporciona una guía útil. Numerosos artículos recientes delinean este dilema del brillante papel de Chattopadhyay y Lipson Data Smashing: Uncovering Lurking Order in Data http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
El cuello de botella clave es que la mayoría de los algoritmos de comparación de datos de hoy dependen de un experto humano para especificar qué 'características' de los datos son relevantes para la comparación. Aquí, proponemos un nuevo principio para estimar la similitud entre las fuentes de flujos de datos arbitrarios, sin utilizar el dominio de conocimiento ni el aprendizaje.
Para el artículo de AER del año pasado sobre problemas de política de predicción por Kleinberg, et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023, que justifica la minería de datos y la predicción como herramientas útiles en la formulación de políticas económicas, citando casos en los que "la inferencia causal no es central, o incluso necesaria. "
El hecho es que la pregunta más grande de $ 64,000 es el amplio cambio en el pensamiento y los desafíos al marco clásico de prueba de hipótesis implícito en, por ejemplo, este simposio de Edge.org sobre pensamiento científico "obsoleto" https://www.edge.org/ respuestas / qué-idea-científica-está-lista para la jubilación , así como este reciente artículo de Eric Beinhocker sobre la "nueva economía" que presenta algunas propuestas radicales para integrar disciplinas muy diferentes como la economía del comportamiento, la teoría de la complejidad, el modelo predictivo desarrollo, teoría de redes y carteras como plataforma para la implementación y adopción de políticas https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Huelga decir que estos problemas van mucho más allá de las meras preocupaciones económicas y sugieren que estamos experimentando un cambio fundamental en los paradigmas científicos. Las opiniones cambiantes son tan fundamentales como las distinciones entre reduccionista, la Navaja de Occam como la construcción de modelos versus el Principio de plenitud expansivo de Epicuro o las explicaciones múltiples que indican aproximadamente que si varios hallazgos explican algo, consérvelos a todos ... https: // es. wikipedia.org/wiki/Principle_of_plenitude
Por supuesto, muchachos como Beinhocker están totalmente libres de problemas prácticos en las trincheras con respecto a soluciones estadísticas aplicadas a este paradigma en evolución. Si se trata de las cuestiones fundamentales de la selección de variables dimensionales ultraaltas, el OP es relativamente inespecífico con respecto a los enfoques viables para la construcción de modelos que podrían aprovechar, por ejemplo, Lasso, LAR, algoritmos paso a paso o "modelos de elefante" que utilizan toda la información disponible. La realidad es que, incluso con AWS o una supercomputadora, no puede usar toda la información disponible al mismo tiempo, simplemente no hay suficiente RAM para cargarlo todo. ¿Qué significa esto? Se han propuesto soluciones alternativas, por ejemplo, el descubrimiento de la NSF en conjuntos de datos complejos o masivos: temas estadísticos comunespara "dividir y conquistar" algoritmos para la minería de datos masiva, por ejemplo, el documento de Wang, et al., A Survey of Statistical Methods and Computing for Big Data http://arxiv.org/pdf/1502.07989.pdf , así como Leskovec, et al. libro Minería de conjuntos de datos masivos http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
Ahora hay literalmente cientos, si no miles de documentos que abordan diversos aspectos de estos desafíos, y todos proponen motores analíticos muy diferentes como núcleo de los algoritmos de "divide y vencerás"; modelos de "aprendizaje profundo" no supervisados; teoría de matriz aleatoria aplicada a la construcción de covarianza masiva; Modelos tensoriales bayesianos para regresión logística supervisada clásica y más. Hace aproximadamente quince años, el debate se centró en gran medida en cuestiones relativas a los méritos relativos de las soluciones bayesianas jerárquicas frente a los modelos de mezcla finita frecuentes. En un documento que aborda estos temas, Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfLlegamos a la conclusión de que los diferentes enfoques teóricos, en la práctica, produjeron resultados en gran medida equivalentes con la excepción de los problemas que involucran datos dispersos y / o de alta dimensión donde los modelos HB tenían la ventaja. Hoy, con la llegada de las soluciones alternativas de D&C, cualquier modelo de arbitraje HB que hayan disfrutado históricamente se está eliminando.
La lógica básica de estas soluciones alternativas de D&C son, en general, extensiones de la famosa técnica de bosque aleatorio de Breiman que se basó en un nuevo muestreo de observaciones y características. Breiman hizo su trabajo a finales de los 90 en una sola CPU cuando los datos masivos significaron unas pocas docenas de conciertos y un par de miles de funciones. En las plataformas multinúcleo masivamente paralelas de hoy en día, es posible ejecutar algoritmos que analizan terabytes de datos que contienen decenas de millones de características que construyen millones de mini modelos "RF" en unas pocas horas.
Hay muchas preguntas importantes que surgen de todo esto. Uno tiene que ver con una preocupación por la pérdida de precisión debido a la naturaleza aproximada de estas soluciones. Chen y Xie abordaron este problema en su documento, Un enfoque de división y conquista para el análisis de datos extraordinariamente grandes http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf donde concluyen que las aproximaciones son indistinguiblemente diferentes de los modelos de "información completa".
Una segunda preocupación que, hasta donde sé, no ha sido abordada adecuadamente por la literatura, tiene que ver con lo que se hace con los resultados (es decir, los "parámetros") de potencialmente millones de minimodelos predictivos una vez que las soluciones han sido enrollados y resumidos. En otras palabras, ¿cómo se ejecuta algo tan simple como "anotar" datos nuevos con estos resultados? ¿Deben guardarse y almacenarse los coeficientes del minimodelo o simplemente se vuelve a ejecutar el algoritmo de d & c en los nuevos datos?
En su libro, Numbers Rule Your World , Kaiser Fung describe el dilema que enfrentó Netflix cuando se le presentó un conjunto de solo 104 modelos entregados por los ganadores de su competencia. De hecho, los ganadores habían minimizado el MSE frente a todos los demás competidores, pero esto se tradujo en una mejora de varios decimales en la precisión en la escala de calificación de tipo Likert de 5 puntos utilizada por su sistema de recomendación de películas. Además, el mantenimiento de TI requerido para este conjunto de modelos cuesta mucho más que cualquier ahorro visto por la "mejora" en la precisión del modelo.
Luego está la cuestión de si la "optimización" es incluso posible con información de esta magnitud. Por ejemplo, Emmanuel Derman, el físico e ingeniero financiero, en su libro My Life as a Quant sugiere que la optimización es un mito insostenible, al menos en ingeniería financiera.
Finalmente, las preguntas importantes sobre la importancia relativa de las características con un gran número de características aún no se han abordado.
No hay respuestas fáciles para preguntas sobre la necesidad de una selección variable y los nuevos desafíos que abren las soluciones actuales y epicúreas que aún no se han resuelto. La conclusión es que ahora todos somos científicos de datos.
**** EDITAR ***
Referencias
Chattopadhyay I, Lipson H. 2014 Destrucción de datos: descubrir el orden de los datos al acecho. JR Soc. Interfaz 11: 20140826.
http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan y Ziad Obermeyer. 2015. "Problemas de política de predicción". American Economic Review, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023
Edge.org, 2014 Pregunta anual: ¿QUÉ IDEA CIENTÍFICA ESTÁ LISTA PARA RETIRARSE?
https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
Eric Beinhocker, Cómo los profundos cambios en la economía hacen que los debates de izquierda a derecha sean irrelevantes, 2016, Evonomics.org.
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Principio Epicurus de explicaciones múltiples: mantener todos los modelos. Wikipedia
https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, Descubrimiento en conjuntos de datos complejos o masivos: Temas estadísticos comunes, un taller financiado por la National Science Foundation, del 16 al 17 de octubre de 2007
https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Métodos estadísticos y computación para Big Data, documento de trabajo de Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu y Jun Yan, 29 de octubre de 2015
http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Minería de conjuntos de datos masivos, Cambridge University Press; 2a edición (29 de diciembre de 2014) ISBN: 978-1107077232
Grandes muestras de matrices de covarianza y análisis de datos de alta dimensión (Serie Cambridge en Matemática estadística y probabilística), por Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 edición (30 de marzo de 2015) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE e IMRAN S. CURRIM, una comparación empírica de modelos Logit Choice con representaciones discretas versus continuas de heterogeneidad, Journal of Marketing Research, 479 vol. XXXIX (noviembre de 2002), 479–487
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Un enfoque de dividir y conquistar para el análisis de datos extraordinariamente grandes, Xueying Chen y Minge Xie, Informe técnico DIMACS 2012-01, enero de 2012
http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, los números gobiernan tu mundo: la influencia oculta de las probabilidades y las estadísticas sobre todo lo que haces, McGraw-Hill Education; 1 edición (15 de febrero de 2010) ISBN: 978-0071626538
Emmanuel Derman, My Life as a Quant: Reflexiones sobre física y finanzas, Wiley; 1 edición (11 de enero de 2016) ISBN: 978-0470192733
* Actualización en noviembre de 2017 *
El libro de 2013 de Nathan Kutz, Modelado basado en datos y computación científica: Métodos para sistemas complejos y Big Data es una excursión matemática y centrada en PDE en la selección de variables, así como en métodos y herramientas de reducción de dimensiones. Una excelente introducción de 1 hora a su pensamiento se puede encontrar en este video de Youtube de junio de 2017, Data Driven Discovery of Dynamical Systems and PDEs . En él, hace referencias a los últimos desarrollos en este campo. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop