Los conjuntos ganan en predicción por razones teóricas y prácticas.
Existe una teoría fundamental del pronóstico óptimo, si queremos decir predecir el próximo evento en una secuencia basada en el conocimiento de eventos anteriores. La predicción de Solomonoff (Solomonoff 1964) es demostrablemente óptima en varios sentidos, incluido que "aprenderá a predecir correctamente cualquier secuencia computable con solo la cantidad mínima absoluta de datos". (Hutter, Legg y Vitanyi 2007) Un predictor de Solomonoff pondera todos los programas compatibles con los datos existentes, de acuerdo con la complejidad de Kolmogorov del programa y la probabilidad de que el programa asigne a los datos hasta ahora, combinando filosofías epicúreas ("mantener todas las teorías") y Ockham ("prefiera las teorías simples") en un marco bayesiano.
Las propiedades de optimización de la predicción de Solomonoff explican el sólido hallazgo al que se refiere: promediar sobre modelos, fuentes o expertos mejora las predicciones, y las predicciones promedio superan incluso al mejor predictor individual. Los diversos métodos de conjunto vistos en la práctica pueden verse como aproximaciones computables a la predicción de Solomonoff, y algunos como MML (Wallace 2005) exploran explícitamente los lazos, aunque la mayoría no.
Wallace (2005) señala que un predictor de Solomonoff no es parsimonioso, mantiene un grupo infinito de modelos, pero la mayor parte del poder predictivo recae inevitablemente en un conjunto relativamente pequeño de modelos. En algunos dominios, el mejor modelo único (o familia de modelos casi indistinguibles) puede representar una gran parte del poder predictivo y superar a los conjuntos genéricos, pero en dominios complejos con poca teoría lo más probable es que ninguna familia individual capture la mayoría de la probabilidad posterior, y, por lo tanto, promediar sobre los candidatos plausibles debería mejorar las predicciones. Para ganar el premio de Netflix, el equipo de Bellkor combinó más de 450 modelos (Koren 2009).
Los humanos suelen buscar una buena explicación: en dominios de "alta teoría" como la física, funcionan bien. De hecho, si capturan la dinámica causal subyacente, deberían ser casi imbatibles. Pero cuando las teorías disponibles no se ajustan mucho a los fenómenos (por ejemplo, recomendación de películas o geopolítica), los modelos individuales tendrán un rendimiento inferior: todos están incompletos, por lo que ninguno debería dominar. De ahí el reciente énfasis en los conjuntos (para el aprendizaje automático) y Wisdom of the Crowds (para expertos), y el éxito de programas como IARPA ACE y específicamente el Good Judgment Project (Tetlock & Gardiner 2015).
Referencias
- M. Hutter, S. Legg y P. Vitanyi, "Probabilidad algorítmica", Scholarpedia, vol. 2, 2007, p. 2572.
- Y. Koren, "La solución BellKor para el Gran Premio de Netflix", 2009.
- Solomonoff, Ray (marzo de 1964). "Una teoría formal de inferencia inductiva Parte I" (PDF). Información y control 7 (1): 1–22. doi: 10.1016 / S0019-9958 (64) 90223-2.
- Solomonoff, Ray (junio de 1964). "Una teoría formal de inferencia inductiva Parte II" (PDF). Información y control 7 (2): 224–254. doi: 10.1016 / S0019-9958 (64) 90131-7.
- PE Tetlock, juicio político experto: ¿qué tan bueno es? ¿Cómo podemos saber ?, Princeton University Press, 2005.
- Tetlock, PE y Gardner, D. (2015). Superforecasting: el arte y la ciencia de la predicción. Nueva York: Crown.
- CS Wallace, Inferencia estadística e inductiva por longitud mínima de mensaje, Springer-Verlag, 2005.