Confusión relacionada con la técnica de embolsado.

Estoy teniendo un poco de confusión. Estaba leyendo este documento donde explicaba que la técnica de embolsado reduce en gran medida la varianza y solo aumenta ligeramente el sesgo. No lo entendí, ¿cómo es que reduce la varianza? Sé lo que es la varianza y el sesgo. El sesgo es la incapacidad del modelo para aprender los datos. La variación es algo similar al sobreajuste. Simplemente no entiendo cómo el embolsado reduce la varianza.

variance bias bagging

— usuario31820
fuente

Aunque el sesgo y la varianza tienen significados potencialmente diferentes en diferentes contextos, su comprensión de ellos parece defectuosa, por no decir simplemente errónea.

— miura

Informalmente, cuando un modelo tiene una varianza demasiado alta, puede ajustarse "demasiado bien" a los datos. Eso significa que para diferentes datos, los parámetros del modelo encontrados por el algoritmo de aprendizaje serán diferentes, o en otras palabras, habrá una gran variación en los parámetros aprendidos, dependiendo del conjunto de entrenamiento.

Puede pensarlo de esa manera: los datos se muestrean de alguna distribución de probabilidad del mundo real, y el modelo aprende los parámetros según los datos muestreados. Por lo tanto, existe una distribución de probabilidad condicional en los parámetros aprendidos de los datos del modelo dado. Esta distribución tiene alguna variación, a veces demasiado alta. Pero cuando promedia modelos con diferentes conjuntos de parámetros aprendidos para diferentes conjuntos de entrenamiento, entonces es como si hubiera muestreado esta distribución de probabilidad condicional veces. El promedio de muestras de un PD siempre tiene una varianza menor que un solo muestreo de la misma distribución. Para la intuición, observe la PD gaussiana, con 0 media y una muestra tiene exactamente $N$ $N$ $N$ $\sigma = 1$ $0$ media y varianza . Pero si muestra veces y promedia los resultados, la media del resultado de la operación seguirá siendo , pero la varianza será . $1$ $N$ $0$ $\frac{1}{N}$

También tenga en cuenta que esto es solo una intuición muy informal, y sería mejor que lea sobre sesgo / varianza de alguna buena fuente confiable. Recomiendo Elementos de aprendizaje estadístico II: http://www-stat.stanford.edu/~tibs/ElemStatLearn/

Puede descargar el libro de forma gratuita, y hay un capítulo completo sobre descomposición de sesgo / varianza.

— sjm.majewski
fuente