Intuición matemática de la ecuación de sesgo-varianza

Yo hace poco hice una pregunta en busca de una interpretación matemática / intuición detrás de la ecuación primaria relacionada muestra de varianza media y: , geométrico o de otra manera. $E[X^2] = Var(X) +(E[X])^2$

Pero ahora tengo curiosidad por la ecuación de compensación de sesgo-varianza superficialmente similar.

\begin{array}{rcl} MSE (\hat{θ}) = E [(\hat{θ} - θ)^{2}] & = & E [(\hat{θ} - E [\hat{θ}])^{2}] + (E [\hat{θ}] - θ)^{2} \\ = & Var (\hat{θ}) + Bias (\hat{θ}, θ)^{2} \end{array}

$\begin{eqnarray} \text{MSE}(\hat{\theta}) = E [(\hat{\theta}-\theta)^2 ] &=& E[(\hat{\theta} - E[\hat\theta])^2] + (E[\hat\theta] - \theta)^2\\ &=& \text{Var}(\hat\theta) + \text{Bias}(\hat\theta,\theta)^2 \\ \end{eqnarray}$ (fórmulas de Wikipedia )

Para mí hay una similitud superficial con la ecuación de compensación de sesgo-varianza para la regresión: tres términos con cuadrados y dos que se suman al otro. Muy pitagórico. ¿Existe una relación vectorial similar, incluida la ortogonalidad para todos estos elementos? ¿O hay alguna otra interpretación matemática relacionada que se aplique?

Estoy buscando una analogía matemática con algunos otros objetos matemáticos que podrían arrojar luz. No estoy buscando la analogía precisión-precisión que está bien cubierta aquí. Pero si hay analogías no técnicas que las personas pueden dar entre la compensación de sesgo-varianza y la relación media-varianza mucho más básica, eso también sería genial.

variance bias

— Mitch
fuente

La similitud es más que superficial.

El "compromiso de variación de sesgo" puede interpretarse como el teorema de Pitágoras aplicado a dos vectores euclidianos perpendiculares: la longitud de uno es la desviación estándar y la longitud del otro es el sesgo. La longitud de la hipotenusa es la raíz del error cuadrático medio.

Una relacion fundamental

Como punto de partida, considere este cálculo revelador, válido para cualquier variable aleatoria con un segundo momento finito y cualquier número real . Como el segundo momento es finito, tiene una media finita para la cual , de donde $X$ $a$ $X$ $\mu=\mathbb{E}(X)$ $\mathbb{E}(X-\mu)=0$

\begin{matrix} (1) & \begin{aligned} E ((X - a)^{2}) & = E ((X - μ + μ - a)^{2}) \\ = E ((X - μ)^{2}) + 2 E (X - μ) (μ - a) + (μ - a)^{2} \\ = Var (X) + (μ - a)^{2} . \end{aligned} \end{matrix}

$\eqalign{ \mathbb{E}((X-a)^2) &= \mathbb{E}((X-\mu\,+\,\mu-a)^2) \\ &= \mathbb{E}((X-\mu)^2) + 2 \mathbb{E}(X-\mu)(\mu-a) + (\mu-a)^2 \\ &= \operatorname{Var}(X) + (\mu-a)^2.\tag{1} }$

Esto muestra cómo la desviación al cuadrado medio entre y cualquier valor "línea de base" varía con : es una función cuadrática de con un mínimo en , donde la desviación media al cuadrado es la varianza de . $X$ $a$ $a$ $a$ $\mu$ $X$

La conexión con estimadores y sesgo

Cualquier estimador es una variable aleatoria porque (por definición) es una función (medible) de variables aleatorias. Dejando que desempeñe el papel de en el precedente, y dejando que el estimado (la cosa se supone que debe estimar) sea , tenemos $\hat \theta$ $X$ $\hat\theta$ $\theta$

MSE (\hat{θ}) = E ((\hat{θ} - θ)^{2}) = Var (\hat{θ}) + (E (\hat{θ}) - θ)^{2} .

$\operatorname{MSE}(\hat\theta) = \mathbb{E}((\hat\theta-\theta)^2) = \operatorname{Var}(\hat\theta) + (\mathbb{E}(\hat\theta)-\theta)^2.$

Volvamos a ahora que hemos visto cómo la afirmación sobre sesgo + varianza para un estimador es literalmente un caso de . La pregunta busca "analogías matemáticas con objetos matemáticos". Podemos hacer más que eso mostrando que las variables aleatorias integrables al cuadrado pueden convertirse naturalmente en un espacio euclidiano. $(1)$ $(1)$

Antecedentes matemáticos

En un sentido muy general, una variable aleatoria es una función de valor real (medible) en un espacio de probabilidad . El conjunto de tales funciones que son integrables al cuadrado, que a menudo se escribe (con la estructura de probabilidad dada entendida), casi es un espacio de Hilbert. Para convertirlo en uno, tenemos que combinar dos variables aleatorias e que realmente no difieren en términos de integración: es decir, decimos que e son equivalentes siempre que sea $(\Omega, \mathfrak{S}, \mathbb{P})$ $\mathcal{L}^2(\Omega)$ $X$ $Y$ $X$ $Y$

E (| X - Y |^{2}) = \int_{Ω} | X (ω) - Y (ω) |^{2} d P (ω) = 0.

$\mathbb{E}(|X-Y|^2) = \int_\Omega |X(\omega)-Y(\omega)|^2 d\mathbb{P}(\omega) = 0.$

Es sencillo comprobar que se trata de una verdadera relación de equivalencia: es más importante, cuando es equivalente a y es equivalente a , entonces necesariamente será equivalente a . Por lo tanto, podemos dividir todas las variables aleatorias integrables al cuadrado en clases de equivalencia. Estas clases forman el conjunto . Además, hereda la estructura de espacio vectorial de definida por la suma puntual de valores y la multiplicación escalar puntual. En este espacio vectorial, la función $X$ $Y$ $Y$ $Z$ $X$ $Z$ $L^2(\Omega)$ $L^2$ $\mathcal{L}^2$

X \to {(\int_{Ω} | X (ω) |^{2} d P (ω))}^{1 / 2} = \sqrt{E (| X |^{2})}

$X \to \left(\int_\Omega |X(\omega)|^2 d\mathbb{P}(\omega)\right)^{1/2}=\sqrt{\mathbb{E}(|X|^2)}$

es una norma , a menudo escrita . Esta norma convierte a en un espacio de Hilbert. Piense en un espacio de Hilbert como un "espacio euclidiano de dimensión infinita". Cualquier subespacio de dimensión finita hereda la norma de y , con esta norma, es un espacio euclidiano: podemos hacer geometría euclidiana en él. $||X||_2$ $L^2(\Omega)$ $\mathcal{H}$ $V\subset \mathcal{H}$ $\mathcal{H}$ $V$

Finalmente, necesitamos un hecho que sea especial para espacios de probabilidad (en lugar de espacios de medida general): porque es una probabilidad, está limitada (por ), de donde las funciones constantes (para cualquier número real fijo ) son variables aleatorias integrables cuadradas con normas finitas. $\mathbb{P}$ $1$ $\omega\to a$ $a$

Una interpretación geométrica

Considere cualquier variable aleatoria integrable al cuadrado , considerada como un representante de su clase de equivalencia en . Tiene una media que (como se puede comprobar) sólo depende de la clase de equivalencia de . Sea la clase de la variable aleatoria constante. $X$ $L^2(\Omega)$ $\mu=\mathbb{E}(X)$ $X$ $\mathbf{1}:\omega\to 1$

$X$ y generan un subespacio euclidiano cuya dimensión es como máximo . En este subespacio, es la longitud al cuadrado de y es la longitud al cuadrado de la variable aleatoria constante . Es fundamental que sea perpendicular a . (Una definición de es que es el número único para el cual es este el caso). Se puede escribir la relación $\mathbf{1}$ $V\subset L^2(\Omega)$ $2$ $||X||_2^2 = \mathbb{E}(X^2)$ $X$ $||a\,\mathbf{1}||_2^2 = a^2$ $\omega\to a$ $X-\mu\mathbf{1}$ $\mathbf{1}$ $\mu$ $(1)$

| | X - a 1 | |_{2}^{2} = | | X - μ 1 | |_{2}^{2} + | | (a - μ) 1 | |_{2}^{2} .

$||X - a\mathbf{1}||_2^2 = ||X - \mu\mathbf{1}||_2^2 + ||(a-\mu)\mathbf{1}||_2^2.$

De hecho, es precisamente el Teorema de Pitágoras, esencialmente en la misma forma conocida hace 2500 años. El objeto es la hipotenusa de un triángulo rectángulo con patas y .

X - a 1 = (X - μ 1) - (a - μ) 1

$X-a\mathbf{1} = (X-\mu\mathbf{1})-(a-\mu)\mathbf{1}$

X - μ 1

$X-\mu\mathbf{1}$

(a - μ) 1

$(a-\mu)\mathbf{1}$

Si desea analogías matemáticas, entonces, puede usar cualquier cosa que pueda expresarse en términos de la hipotenusa de un triángulo rectángulo en un espacio euclidiano. La hipotenusa representará el "error" y las piernas representarán el sesgo y las desviaciones de la media.

— whuber
fuente

Excelente. Entonces, el razonamiento es casi idéntico al de mi pregunta anterior re . Entonces, hay una analogía entre ellos, ¿verdad? Parece intuitivamente que el sesgo es análogo al significado. Y la generalización es que la media es el primer momento con respecto a 0, pero el sesgo es con respecto al valor verdadero de un parámetro. ¿Eso suena bien?

V a r = E X^{2} - (E X)^{2}

$Var = EX^2 - (EX)^2$

— Mitch

Sí, con la condición (que es una idea añadida por la interpretación geométrica) de que la forma correcta de medir estas cosas es en términos de sus cuadrados.

— whuber

Entonces, tengo una pregunta relacionada. Para cualquier aprendizaje automático, tengo estos dos conceptos "si aumentamos el tamaño de la muestra, la varianza de un estimador asintóticamente imparcial irá a cero" y "si aumentamos la complejidad del modelo, por lo tanto, tendremos un sesgo bajo y una varianza alta". . Por lo tanto, ¿puedo decir que una mayor potencia de cálculo permite una mayor complejidad que reducirá el sesgo, pero aumentará la varianza? Sin embargo, bajo asintótica, este aumento en la varianza será compensado.

— ARAT

@Mustafa Haces algunas suposiciones fuertes. La primera es que una muestra es aleatoria y (al menos aproximadamente) independiente , lo cual no suele ser el caso en las aplicaciones de LD. Las conclusiones sobre el aumento de la complejidad del modelo generalmente no son ciertas, en parte porque "el aumento de la complejidad" implica que está cambiando el modelo y eso pone en tela de juicio el significado de lo que su estimador está estimando y cómo ese estimador podría estar relacionado con su estimación. . No se sigue necesariamente que el aumento de la complejidad del modelo tenga un efecto generalmente predecible sobre el sesgo o la varianza.

— whuber

Esta es una forma de pensar visualmente acerca de la precisión y el equilibrio del sesgo de varianza. Supongamos que está mirando un objetivo y realiza muchos disparos que están dispersos cerca del centro del objetivo de tal manera que no haya sesgo. Entonces, la precisión está determinada únicamente por la varianza y cuando la varianza es pequeña, el tirador es exacto.

Ahora consideremos un caso donde hay una gran precisión pero un gran sesgo. En este caso, los disparos se encuentran dispersos alrededor de un punto alejado del centro. Algo está arruinando el punto de puntería pero alrededor de este punto de puntería cada disparo está cerca de ese nuevo punto de puntería. El tirador es preciso pero muy impreciso debido al sesgo.

Hay otras situaciones en las que los disparos son precisos debido al pequeño sesgo y la alta precisión. Lo que queremos es no sesgo y pequeña varianza o pequeña varianza con pequeño sesgo. En algunos problemas estadísticos no puedes tener ambos. Por lo tanto, MSE se convierte en la medida de precisión que desea utilizar que juega con el equilibrio de sesgo de varianza y minimizar MSE debería ser el objetivo.

— Michael R. Chernick
fuente

Excelente descripción intuitiva re-varianza de sesgo y analogía precisión-precisión. También estoy buscando una interpretación matemática como el Teorema de Pitágoras.

— Mitch

No me concentré en eso porque estaba cubierto en otra publicación que discutía la interpretación geométrica. Encontraré el enlace para ti.

— Michael R. Chernick

@Mitch La búsqueda del "compromiso de variación de sesgo" arrojó 134 resultados en el sitio de CV. Todavía no he encontrado el teorema de Pitágoras, pero este es realmente bueno y tiene una imagen de los objetivos que discutí en esta publicación. "Explicación intuitiva de la compensación de sesgo-varianza".

— Michael R. Chernick

Encontré el que estaba buscando desde el 5 de enero de 2017 "intuición (geométrica u otra) de Var (X) = E [ ] - ( ).

X^{2}

$X^2$

E [X])^{2}

$E[X])^2$

— Michael R. Chernick

@Mitch No me di cuenta de que publicaste la pregunta que estaba buscando.

— Michael R. Chernick