15

Estoy tratando de entender el equilibrio entre sesgo y varianza, la relación entre el sesgo del estimador y el sesgo del modelo, y la relación entre la varianza del estimador y la varianza del modelo.

Llegué a estas conclusiones:

Tendemos a sobreajustar los datos cuando descuidamos el sesgo del estimador, es decir, cuando solo apuntamos a minimizar el sesgo del modelo descuidando la varianza del modelo (en otras palabras, solo apuntamos a minimizar la varianza del estimador sin considerar el sesgo del estimador también)
Viceversa, tendemos a ajustar los datos cuando descuidamos la varianza del estimador, es decir, cuando solo apuntamos a minimizar la varianza del modelo descuidando el sesgo del modelo (en otras palabras, solo apuntamos a minimizar el sesgo del estimador sin considerar la varianza del estimador también).

¿Son correctas mis conclusiones?

— John M
fuente

John, creo que disfrutarás leyendo este artículo de Tal Yarkoni y Jacob Westfall: proporciona una interpretación intuitiva de la compensación de la variación de sesgo: jakewestfall.org/publications/… .

— Isabella Ghement

22

Especie de. Como se indicó, usted atribuye la intención al científico de minimizar el sesgo o la varianza. En la práctica, no puede observar explícitamente el sesgo o la varianza de su modelo (si pudiera, entonces conocería la señal verdadera, en cuyo caso no necesitaría un modelo). En general, solo puede observar la tasa de error de su modelo en un conjunto de datos específico, y busca estimar la tasa de error fuera de la muestra utilizando varias técnicas creativas.

Ahora se hace saber que, al menos en teoría, esta tasa de error se puede descomponer en términos sesgo y la varianza, pero no se puede observar directamente este equilibrio en cualquier situación concreta específica. Así que reafirmaría sus observaciones ligeramente como:

Un modelo no está adaptado a los datos cuando el término sesgo contribuye a la mayoría de los errores fuera de la muestra.
Un modelo se sobreajusta a los datos cuando el término de varianza contribuye a la mayoría del error fuera de la muestra.

En general, no hay una forma real de saberlo con certeza, ya que nunca se puede observar realmente el sesgo del modelo. Sin embargo, hay varios patrones de comportamiento que son indicativos de estar en una situación u otra:

Los modelos de sobreajuste tienden a tener un rendimiento de bondad de ajuste mucho peor en un conjunto de datos de prueba frente a un conjunto de datos de entrenamiento.
Los modelos de underfit tienden a tener la misma calidad de rendimiento de ajuste en un conjunto de datos de prueba versus entrenamiento.

Estos son los patrones que se manifiestan en las famosas parcelas de tasas de error por complejidad del modelo, este es de The Elements of Statistical Learning:

modelComplexity

A menudo, estas parcelas se superponen con una curva de sesgo y varianza. Tomé este de esta bonita exposición :

ingrese la descripción de la imagen aquí

Pero es muy importante darse cuenta de que en realidad nunca se ven estas curvas adicionales en una situación realista.

— Matthew Drury
fuente

4

Ilustrando el sesgo: compensación de varianza utilizando un ejemplo de juguete

Como señala @Matthew Drury, en situaciones realistas no se puede ver el último gráfico, pero el siguiente ejemplo de juguete puede proporcionar interpretación visual e intuición a quienes lo encuentran útil.

Conjunto de datos y supuestos

$Y$

$Y = sin(\pi x - 0.5) + \epsilon$ $\epsilon \sim Uniform(-0.5,0.5)$
$Y = f(x) + \epsilon$

$x$ $Y$ $Var(Y) = Var(\epsilon) = \frac{1}{12}$

$\hat f(x) = \beta_0 + \beta_1x + \beta_1 x^2 + ... + \beta_px^p$

Adaptación de varios modelos de polinomios.

Intuitivamente, esperaría que una curva de línea recta funcione mal ya que el conjunto de datos es claramente no lineal. Del mismo modo, ajustar un polinomio de orden muy alto puede ser excesivo. Esta intuición se refleja en el siguiente gráfico que muestra los diversos modelos y su correspondiente error cuadrático medio para los datos del tren y la prueba.

El gráfico anterior funciona para un solo tren / división de prueba, pero ¿cómo sabemos si se generaliza?

Estimación del tren esperado y prueba MSE

Aquí tenemos muchas opciones, pero un enfoque es dividir aleatoriamente los datos entre tren / prueba: ajustar el modelo en la división dada y repetir este experimento muchas veces. El MSE resultante se puede trazar y el promedio es una estimación del error esperado.

Es interesante ver que el MSE de prueba fluctúa enormemente para diferentes divisiones de datos de tren / prueba. Pero tomar el promedio en un número suficientemente grande de experimentos nos da una mayor confianza.

$Y$

Sesgo - Descomposición de varianza

Como se explica aquí, el MSE se puede dividir en 3 componentes principales:

mi [(Y - \hat{F})^{2}] = σ_{ϵ}^{2} + si yo un s^{2} [\hat{F}] + V un r [\hat{F}]

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + Bias^2[\hat f] + Var[\hat f]$

mi [(Y - \hat{F})^{2}] = σ_{ϵ}^{2} + {[F - mi [\hat{F}]]}^{2} + mi {[\hat{F} - mi [\hat{F}]]}^{2}

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2$

Donde en nuestra caja de juguetes:

$f$
$\sigma^2_\epsilon$ $\epsilon$
$E[\hat f]$
$\hat f$
$E\left[ \hat f - E[ \hat f] \right]^2$

Dando la siguiente relación

Nota: el gráfico anterior utiliza los datos de entrenamiento para ajustarse al modelo y luego calcula el MSE en train + test .

— Xavier Bourret Sicotte
fuente

Pregunta sobre el equilibrio de sesgo-varianza

Ilustrando el sesgo: compensación de varianza utilizando un ejemplo de juguete

Conjunto de datos y supuestos

Adaptación de varios modelos de polinomios.

Estimación del tren esperado y prueba MSE

Sesgo - Descomposición de varianza