¿Por qué los conjuntos son tan irrazonablemente efectivos?

14

Parece que se ha convertido en axiomático que un conjunto de estudiantes conduce a los mejores resultados posibles del modelo, y cada vez es más raro, por ejemplo, que modelos individuales ganen competencias como Kaggle. ¿Existe una explicación teórica de por qué los conjuntos son tan efectivos?

machine-learning data-mining predictive-modeling

— Robert de Graaf
fuente

1

Mi conjetura sería el Teorema del límite central, pero no tengo justificación.

13

Para un modelo específico, alimente sus datos, elija las características, elija hiperparámetros, etc. En comparación con la realidad, comete tres tipos de errores:

Sesgo (debido a la complejidad demasiado baja del modelo, un sesgo de muestreo en sus datos)
Variación (debido al ruido en sus datos, sobreajuste de sus datos)
Aleatoriedad de la realidad que intenta predecir (o falta de características predictivas en su conjunto de datos)

Los conjuntos promedian varios de estos modelos. El sesgo debido al sesgo de muestreo no se solucionará por razones obvias, puede corregir parte del sesgo de complejidad del modelo, sin embargo, los errores de varianza que se cometen son muy diferentes en sus diferentes modelos. Los modelos especialmente correlacionados bajos cometen errores muy diferentes en estas áreas, ciertos modelos funcionan bien en ciertas partes de su espacio de características. Al promediar estos modelos, reduce bastante esta variación. Por eso brillan los conjuntos.

— Jan van der Vegt
fuente

6

La respuesta seleccionada es fantástica, pero me gustaría agregar dos cosas:

Se ha observado que promediar las predicciones humanas da mejores predicciones que cualquier predicción individual. Esto se conoce como la sabiduría de la multitud . Ahora, podría argumentar que se debe a que algunas personas tienen información diferente, por lo que efectivamente promedia la información. Pero no, esto es cierto incluso para tareas como adivinar la cantidad de frijoles en un frasco. Supongo que tiene que ver con algunas de las razones dadas anteriormente sobre los modelos de minería de datos.
Algunas técnicas, como el método de abandono en las redes neuronales (donde en cada iteración durante el entrenamiento usas solo una parte de tu red neuronal) dan resultados similares a un conjunto de redes neuronales. La razón es que usted está forzando efectivamente a los nodos a hacer el mismo trabajo predictivo que los otros nodos, creando efectivamente un meta-conjunto. Lo digo para señalar que podemos introducir algunas de las ventajas de los conjuntos en los modelos tradicionales.

— Ricardo Cruz
fuente

6

Los conjuntos ganan en predicción por razones teóricas y prácticas.

Existe una teoría fundamental del pronóstico óptimo, si queremos decir predecir el próximo evento en una secuencia basada en el conocimiento de eventos anteriores. La predicción de Solomonoff (Solomonoff 1964) es demostrablemente óptima en varios sentidos, incluido que "aprenderá a predecir correctamente cualquier secuencia computable con solo la cantidad mínima absoluta de datos". (Hutter, Legg y Vitanyi 2007) Un predictor de Solomonoff pondera todos los programas compatibles con los datos existentes, de acuerdo con la complejidad de Kolmogorov del programa y la probabilidad de que el programa asigne a los datos hasta ahora, combinando filosofías epicúreas ("mantener todas las teorías") y Ockham ("prefiera las teorías simples") en un marco bayesiano.

Las propiedades de optimización de la predicción de Solomonoff explican el sólido hallazgo al que se refiere: promediar sobre modelos, fuentes o expertos mejora las predicciones, y las predicciones promedio superan incluso al mejor predictor individual. Los diversos métodos de conjunto vistos en la práctica pueden verse como aproximaciones computables a la predicción de Solomonoff, y algunos como MML (Wallace 2005) exploran explícitamente los lazos, aunque la mayoría no.

Wallace (2005) señala que un predictor de Solomonoff no es parsimonioso, mantiene un grupo infinito de modelos, pero la mayor parte del poder predictivo recae inevitablemente en un conjunto relativamente pequeño de modelos. En algunos dominios, el mejor modelo único (o familia de modelos casi indistinguibles) puede representar una gran parte del poder predictivo y superar a los conjuntos genéricos, pero en dominios complejos con poca teoría lo más probable es que ninguna familia individual capture la mayoría de la probabilidad posterior, y, por lo tanto, promediar sobre los candidatos plausibles debería mejorar las predicciones. Para ganar el premio de Netflix, el equipo de Bellkor combinó más de 450 modelos (Koren 2009).

Los humanos suelen buscar una buena explicación: en dominios de "alta teoría" como la física, funcionan bien. De hecho, si capturan la dinámica causal subyacente, deberían ser casi imbatibles. Pero cuando las teorías disponibles no se ajustan mucho a los fenómenos (por ejemplo, recomendación de películas o geopolítica), los modelos individuales tendrán un rendimiento inferior: todos están incompletos, por lo que ninguno debería dominar. De ahí el reciente énfasis en los conjuntos (para el aprendizaje automático) y Wisdom of the Crowds (para expertos), y el éxito de programas como IARPA ACE y específicamente el Good Judgment Project (Tetlock & Gardiner 2015).

Referencias

M. Hutter, S. Legg y P. Vitanyi, "Probabilidad algorítmica", Scholarpedia, vol. 2, 2007, p. 2572.
Y. Koren, "La solución BellKor para el Gran Premio de Netflix", 2009.
Solomonoff, Ray (marzo de 1964). "Una teoría formal de inferencia inductiva Parte I" (PDF). Información y control 7 (1): 1–22. doi: 10.1016 / S0019-9958 (64) 90223-2.
Solomonoff, Ray (junio de 1964). "Una teoría formal de inferencia inductiva Parte II" (PDF). Información y control 7 (2): 224–254. doi: 10.1016 / S0019-9958 (64) 90131-7.
PE Tetlock, juicio político experto: ¿qué tan bueno es? ¿Cómo podemos saber ?, Princeton University Press, 2005.
Tetlock, PE y Gardner, D. (2015). Superforecasting: el arte y la ciencia de la predicción. Nueva York: Crown.
CS Wallace, Inferencia estadística e inductiva por longitud mínima de mensaje, Springer-Verlag, 2005.

— ctwardy
fuente