Informalmente, cuando un modelo tiene una varianza demasiado alta, puede ajustarse "demasiado bien" a los datos. Eso significa que para diferentes datos, los parámetros del modelo encontrados por el algoritmo de aprendizaje serán diferentes, o en otras palabras, habrá una gran variación en los parámetros aprendidos, dependiendo del conjunto de entrenamiento.
Puede pensarlo de esa manera: los datos se muestrean de alguna distribución de probabilidad del mundo real, y el modelo aprende los parámetros según los datos muestreados. Por lo tanto, existe una distribución de probabilidad condicional en los parámetros aprendidos de los datos del modelo dado. Esta distribución tiene alguna variación, a veces demasiado alta. Pero cuando promedia modelos con diferentes conjuntos de parámetros aprendidos para diferentes conjuntos de entrenamiento, entonces es como si hubiera muestreado esta distribución de probabilidad condicional veces. El promedio de muestras de un PD siempre tiene una varianza menor que un solo muestreo de la misma distribución. Para la intuición, observe la PD gaussiana, con 0 media y una muestra tiene exactamentenortenortenorteσ= 10 0media y varianza . Pero si muestra veces y promedia los resultados, la media del resultado de la operación seguirá siendo , pero la varianza será .1norte0 01norte
También tenga en cuenta que esto es solo una intuición muy informal, y sería mejor que lea sobre sesgo / varianza de alguna buena fuente confiable. Recomiendo Elementos de aprendizaje estadístico II:
http://www-stat.stanford.edu/~tibs/ElemStatLearn/
Puede descargar el libro de forma gratuita, y hay un capítulo completo sobre descomposición de sesgo / varianza.