¿Cómo entender que el MLE de varianza está sesgado en una distribución gaussiana?

Ilustración PRML de cómo surge el sesgo al usar la máxima probabilidad para determinar la varianza de un gaussiano

Estoy leyendo PRML y no entiendo la imagen. ¿Podría darnos algunas pistas para comprender la imagen y por qué el MLE de la varianza en una distribución gaussiana está sesgado?

fórmula 1.55: fórmula 1.56

μ_{M L E} = \frac{1}{N} \sum_{n = 1}^{N} x_{n}

$\mu_{MLE}=\frac{1}{N} \sum_{n=1}^N x_n$

σ_{M L E}^{2} = \frac{1}{N} \sum_{n = 1}^{N} (x_{n} - μ_{M L E})^{2}

$\sigma_{MLE}^2=\frac{1}{N}\sum_{n=1}^{N}(x_n-\mu_{MLE})^2$

machine-learning self-study maximum-likelihood

— ningyuwhut
fuente

Agregue la etiqueta de autoestudio.

— StatsStudent

¿Por qué para cada gráfico, solo un punto de datos azul es visible para mí? por cierto, mientras intentaba editar el desbordamiento de dos subíndices en esta publicación, el sistema requiere "al menos 6 caracteres" ... vergonzoso.

— Zhanxiong

¿Qué es lo que realmente quiere entender, la imagen o por qué la estimación de varianza MLE está sesgada? Lo primero es muy confuso pero puedo explicar lo último.

— TrynnaDoStat

sí, encontré en la nueva versión que cada gráfico tiene dos datos azules, mi pdf es viejo

— ningyuwhut

@ TrynnaDoStat, lo siento, mi pregunta no está clara. Lo que quiero saber es por qué la estimación de varianza MLE está sesgada. y cómo se expresa esto en este gráfico

— ningyuwhut

Intuición

El sesgo "proviene" (no es en absoluto un término técnico) del hecho de que está sesgado para . La pregunta natural es: "bueno, ¿cuál es la intuición de por qué está sesgado para "? La intuición es que en una media de muestra no cuadrada, a veces perdemos el valor verdadero por sobreestimar y otras por subestimar. Pero, sin cuadrar, la tendencia a sobreestimar y subestimar se cancelará mutuamente. Sin embargo, cuando ajustamos la tendencia a subestimar (perder el verdadero valor de $E[\bar{x}^2]$ $\mu^2$ $E[\bar{x}^2]$ $\mu^2$ $\mu$ $\bar{x}$ $\mu$ por un número negativo) también se eleva al cuadrado y, por lo tanto, se vuelve positivo. Por lo tanto, ya no se cancela y hay una ligera tendencia a sobreestimar.

Si la intuición detrás de por qué está sesgada para todavía no está clara, intente comprender la intuición detrás de la desigualdad de Jensen (buena explicación intuitiva aquí ) y aplíquela a . $x^2$ $\mu^2$ $E[x^2]$

Probemos que el MLE de varianza para una muestra iid está sesgado. Luego verificaremos analíticamente nuestra intuición.

Prueba

Sea . $\hat{\sigma}^2 = \frac{1}{N}\sum_{n = 1}^N (x_n - \bar{x})^2$

Queremos mostrar . $E[\hat{\sigma}^2] \neq \sigma^2$

E [{\hat{σ}}^{2}] = E [\frac{1}{N} \sum_{n = 1}^{N} (x_{n} - \bar{x})^{2}] = \frac{1}{N} E [\sum_{n = 1}^{N} (x_{n}^{2} - 2 x_{n} \bar{x} + {\bar{x}}^{2})] = \frac{1}{N} E [\sum_{n = 1}^{N} x_{n}^{2} - \sum_{n = 1}^{N} 2 x_{n} \bar{x} + \sum_{n = 1}^{N} {\bar{x}}^{2}]

$E[\hat{\sigma}^2] = E[\frac{1}{N}\sum_{n = 1}^N (x_n - \bar{x})^2] = \frac{1}{N}E[\sum_{n = 1}^N (x_n^2 - 2x_n\bar{x} + \bar{x}^2)] = \frac{1}{N}E[\sum_{n = 1}^N x_n^2 - \sum_{n = 1}^N 2x_n\bar{x} + \sum_{n = 1}^N \bar{x}^2]$

Usando el hecho de que y , $\sum_{n = 1}^N x_n = N\bar{x}$ $\sum_{n = 1}^N \bar{x}^2 = N\bar{x}^2$

\frac{1}{N} E [\sum_{n = 1}^{N} x_{n}^{2} - \sum_{n = 1}^{N} 2 x_{n} \bar{x} + \sum_{n = 1}^{N} {\bar{x}}^{2}] = \frac{1}{N} E [\sum_{n = 1}^{N} x_{n}^{2} - 2 N {\bar{x}}^{2} + N {\bar{x}}^{2}] = \frac{1}{N} E [\sum_{n = 1}^{N} x_{n}^{2} - N {\bar{x}}^{2}] = \frac{1}{N} E [\sum_{n = 1}^{N} x_{n}^{2}] - E [{\bar{x}}^{2}] = \frac{1}{N} \sum_{n = 1}^{N} E [x_{n}^{2}] - E [{\bar{x}}^{2}] = E [x_{n}^{2}] - E [{\bar{x}}^{2}]

$\frac{1}{N}E[\sum_{n = 1}^N x_n^2 - \sum_{n = 1}^N 2x_n\bar{x} + \sum_{n = 1}^N \bar{x}^2] = \frac{1}{N}E[\sum_{n = 1}^N x_n^2 - 2N\bar{x}^2 + N\bar{x}^2]=\frac{1}{N}E[\sum_{n = 1}^N x_n^2 - N\bar{x}^2] = \frac{1}{N}E[\sum_{n = 1}^N x_n^2] - E[\bar{x}^2] = \frac{1}{N}\sum_{n = 1}^N E[x_n^2] - E[\bar{x}^2] \\= E[x_n^2] - E[\bar{x}^2]$

Con el último paso siguiente debido a que es igual en debido a que proviene de la misma distribución. $E[x_n^2]$ $n$

Ahora, recuerde la definición de varianza que dice . A partir de aquí, obtenemos lo siguiente $\sigma^2_x = E[x^2] - E[x]^2$

E [x_{n}^{2}] - E [{\bar{x}}^{2}] = σ_{x}^{2} + E [x_{n}]^{2} - σ_{\bar{x}}^{2} - E [x_{n}]^{2} = σ_{x}^{2} - σ_{\bar{x}}^{2} = σ_{x}^{2} - V a r (\bar{x}) = σ_{x}^{2} - V a r (\frac{1}{N} \sum_{n = 1}^{N} x_{n}) = σ_{x}^{2} - (\frac{1}{N})^{2} V a r (\sum_{n = 1}^{N} x_{n})

$E[x_n^2] - E[\bar{x}^2] = \sigma^2_x + E[x_n]^2 - \sigma^2_\bar{x} - E[x_n]^2 = \sigma^2_x - \sigma^2_\bar{x} = \sigma^2_x - Var(\bar{x}) = \sigma^2_x - Var(\frac{1}{N}\sum_{n = 1}^Nx_n) = \sigma^2_x - \bigg(\frac{1}{N}\bigg)^2Var(\sum_{n = 1}^Nx_n)$

Tenga en cuenta que hemos ajustado adecuadamente la constante al sacarla de . ¡Presta especial atención a eso! $\frac{1}{N}$ $Var()$

σ_{x}^{2} - (\frac{1}{N})^{2} V a r (\sum_{n = 1}^{N} x_{n}) = σ_{x}^{2} - (\frac{1}{N})^{2} N σ_{x}^{2} = σ_{x}^{2} - \frac{1}{N} σ_{x}^{2} = \frac{N - 1}{N} σ_{x}^{2}

$\sigma^2_x - \bigg(\frac{1}{N}\bigg)^2Var(\sum_{n = 1}^Nx_n) = \sigma^2_x - \bigg(\frac{1}{N}\bigg)^2N \sigma^2_x = \sigma^2_x - \frac{1}{N}\sigma^2_x = \frac{N-1}{N}\sigma^2_x$

que, por supuesto, no es igual a . $\sigma_x^2$

Verifique analíticamente nuestra intuición

Podemos verificar algo la intuición suponiendo que conocemos el valor de y conectándolo a la prueba anterior. Como ahora sabemos , ya no tenemos la necesidad de estimar y, por lo tanto, nunca lo sobreestimamos con . Veamos que esto "elimina" el sesgo en . $\mu$ $\mu$ $\mu^2$ $E[\bar{x}^2]$ $\hat{\sigma}^2$

Deje que . $\hat{\sigma}_\mu^2 = \frac{1}{N}\sum_{n = 1}^N (x_n - \mu)^2$

De la prueba anterior, tomemos reemplazando con el valor verdadero . $E[x_n^2] - E[\bar{x}^2]$ $\bar{x}$ $\mu$

E [x_{n}^{2}] - E [μ^{2}] = E [x_{n}^{2}] - μ^{2} = σ_{x}^{2} + E [x_{n}]^{2} - μ^{2} = σ_{x}^{2}

$E[x_n^2] - E[\mu^2] = E[x_n^2] - \mu^2 = \sigma^2_x + E[x_n]^2 - \mu^2= \sigma^2_x$

que es imparcial!

— TrynnaDoStat
fuente

+1 Puede valer la pena comentar que su demostración no requiere que tenga una distribución gaussiana. (Sin embargo, para otras distribuciones, la varianza de la muestra podría no ser el MLE para el parámetro de varianza.)

X

$X$

— whuber

Gracias por tu explicación. Necesito algo de tiempo para entenderlo. Además, encontré algún error en las ecuaciones. ¿Puede verificarlo? ¡Gracias!

— ningyuwhut

@ whuber - No estoy seguro de por qué dijiste "... la demostración no requiere que tenga una distribución gaussiana". No hablaríamos de la solución ML de varianza para cada distribución, digamos una distribución binomial. Así que implícitamente estamos asumiendo que la distribución X tiene varianza como uno de los parámetros.

X

$X$

— KGhatak