¿Hay una representación gráfica de la compensación de sesgo-varianza en la regresión lineal?


18

Estoy sufriendo un apagón. Se me presentó la siguiente imagen para mostrar el equilibrio de sesgo-varianza en el contexto de la regresión lineal:

Modelo polinómico para datos, caso simple y complejo

Puedo ver que ninguno de los dos modelos encaja bien: el "simple" no aprecia la complejidad de la relación XY y el "complejo" simplemente se sobreajusta, básicamente aprende los datos de entrenamiento de memoria. Sin embargo, no veo completamente el sesgo y la varianza en estas dos imágenes. ¿Alguien podría mostrarme esto?

PD: ¿La respuesta a la explicación intuitiva de la compensación de sesgo-varianza? Realmente no me ayudó, me alegraría si alguien pudiera proporcionar un enfoque diferente basado en la imagen de arriba.

Respuestas:


11

La compensación de la variación de sesgo se basa en el desglose del error cuadrático medio:

MSE(y^)=E[yy^]2=E[yE[y^]]2+E[y^E[y^]]2

Una forma de ver el intercambio de sesgo-varianza es qué propiedades del conjunto de datos se usan en el ajuste del modelo. Para el modelo simple, si suponemos que se usó la regresión OLS para ajustar la línea recta, entonces solo se usan 4 números para ajustar la línea:

  1. La covarianza muestral entre x e y
  2. La varianza muestral de x
  3. La media muestral de x
  4. La media muestral de y

Por lo tanto, cualquier gráfico que conduzca a los mismos 4 números anteriores conducirá exactamente a la misma línea ajustada (10 puntos, 100 puntos, 100000000 puntos). Entonces, en cierto sentido, es insensible a la muestra particular observada. Esto significa que estará "sesgado" porque ignora efectivamente parte de los datos. Si esa parte ignorada de los datos resulta ser importante, entonces las predicciones serán consistentemente erróneas. Verá esto si compara la línea ajustada utilizando todos los datos con las líneas ajustadas obtenidas al eliminar un punto de datos. Tienden a ser bastante estables.

Ahora el segundo modelo utiliza cada fragmento de datos que puede obtener, y ajusta los datos lo más cerca posible. Por lo tanto, la posición exacta de cada punto de datos es importante, por lo que no puede cambiar los datos de entrenamiento sin cambiar el modelo ajustado como puede hacerlo para OLS. Por lo tanto, el modelo es muy sensible al conjunto de entrenamiento particular que tiene. El modelo ajustado será muy diferente si realiza el mismo gráfico de punto de datos de colocar uno.


El sesgo y la varianza de la estimación de parámetro de modelo θ o el valorθ^? Algunas personas me dicen que los términossesgoyvarianzasolo se pueden usar para describir el parámetro del modeloθ, no los datosx,y, ¿es correcto? y^θx,y
aguacate

No creo que esto es cierto, creo que se está hablando de predicción ( y ) frente a la estimación ( θ ). Ambos tienen las nociones de sesgo y varianza, por ejemplo, tiene el "AZUL" para un parámetro de regresión y "BLUP" para la predicción de un punto de datos futuro. y^θ^
probabilidadislogica

Para la estimación del parámetro θ , su sesgo es b i a s ( theta ) = θ - E [ θ ]θ^bias(θ^)=θE[θ^] , pero es desconocido para nosotros, ¿verdad? Además, dado el conjunto de datos, no tenemos idea de cómo debería ser el modelo verdadero, por ejemplo, el modelo verdadero detrás de los datos es f ( x ) = a + b x + c x 2 , pero elegimos un modelo de regresión lineal h ( x ) = d +θf(x)=a+bx+cx2 para ajustar los datos, así que aquí viene la paradoja: los parámetros verdaderos son ( a , b , c ) , que son el objetivo que debemos tratar de estimar, pero terminamos con las estimaciones de ( d , e ) , luego calcular o analizar el b i a s ( d ) y b i a s ( e ) ? h(x)=d+ex(a,b,c)(d,e)bias(d)bias(e)
aguacate

@loganecolss: esto no es una paradoja, ya que la noción de sesgo solo existe "localmente", es decir, con respecto a un modelo estadístico dado. La "paradoja" existe para una persona que: 1) conoce el "modelo verdadero", y 2) decide no usarlo. Esa persona es una idiota en mi libro. Si no conoce el "verdadero modelo" entonces no es un problema - a menos que haya encontrado un buen modelo y decidió no usarlo ...
probabilityislogic

1
f(x,z1,z2,,zK)ziK
probabilidad

5

Para resumir con lo que creo que sé de una manera no matemática:

  • sesgo: su predicción será incorrecta cuando use el modelo simple y eso sucederá en cualquier conjunto de datos en el que use el modelo. Se espera que su predicción sea incorrecta
  • varianza: si utiliza el modelo complejo, obtendrá predicciones muy diferentes según el conjunto de datos que esté utilizando

Esta página tiene una explicación bastante buena con diagramas similares a lo que publicaste. (Sin embargo, omití la parte superior, solo leí la parte con diagramas) http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_bias_variance.htm (¡el mouseover muestra una muestra diferente en caso de que no lo haya notado!)


Esa es una página interesante y buenas ilustraciones, pero las encuentro más confusas que útiles porque (a) el "sesgo" y la "varianza" discutidos en el contexto de la regresión no parecen ser el sesgo y la varianza tal como se define al comienzo de ese página y (b) no está nada claro que las afirmaciones que se hacen (sobre cómo cambian el sesgo y la varianza con el número de parámetros) sean correctas.
whuber
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.