Pregunta básica sobre la matriz de información de Fisher y la relación con los errores estándar y de Hesse

54

Ok, esta es una pregunta bastante básica, pero estoy un poco confundido. En mi tesis escribo:

Los errores estándar se pueden encontrar calculando el inverso de la raíz cuadrada de los elementos diagonales de la matriz (observada) de información de Fisher:

\begin{aligned} s_{\hat{μ}, {\hat{σ}}^{2}} = \frac{1}{\sqrt{I (\hat{μ}, {\hat{σ}}^{2})}} \end{aligned}

$\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*}$ Dado que el comando de optimización en R minimiza la matriz de información de Fisher (observada) se puede encontrar calculando el inverso del hessiano:

- \log L

$-\log\mathcal{L}$

\begin{aligned} I (\hat{μ}, {\hat{σ}}^{2}) = H^{- 1} \end{aligned}

$\begin{align*} \mathbf{I}(\hat{\mu},\hat{\sigma}^2)=\mathbf{H}^{-1} \end{align*}$

Mi pregunta principal: ¿es correcto lo que estoy diciendo ?

Estoy un poco confundido, porque en esta fuente en la página 7 dice:

la matriz de información es el negativo del valor esperado de la matriz de Hesse

(Por lo tanto, no inversa del Hessian.)

Mientras que en esta fuente en la página 7 (nota 5) dice:

La información de Fisher observada es igual a . $(-H)^{-1}$

(Entonces aquí está el inverso).

Soy consciente del signo menos y cuándo usarlo y cuándo no, pero ¿por qué hay una diferencia en tomar el inverso o no?

maximum-likelihood fisher-information

— Jen Bohold
fuente

@COOLSerdash Gracias por sus correcciones y +1, pero esta fuente: unc.edu/~monogan/computing/r/MLE_in_R.pdf página 7 dice claramente que la información de Fisher observada es igual a la INVERSIÓN del Hessian?

— Jen Bohold

@COOLSerdash Ok, es posible que desee publicar esto como respuesta.

— Jen Bohold

75

Yudi Pawitan escribe en su libro In All Likelihood que la segunda derivada del log-verosimilitud evaluada en las estimaciones de máxima verosimilitud (MLE) es la información de Fisher observada (ver también este documento , página 2). Esto es exactamente lo que la mayoría de los algoritmos de optimización como optimen Rretorno: el grupo de acción evaluada en el MLE. Cuando lo negativola probabilidad logarítmica se minimiza, se devuelve el Hessian negativo. Como señala correctamente, los errores estándar estimados del MLE son las raíces cuadradas de los elementos diagonales del inverso de la matriz de información de Fisher observada. En otras palabras: las raíces cuadradas de los elementos diagonales de la inversa de la arpillera (o la arpillera negativa) son los errores estándar estimados.

Resumen

El Hessian negativo evaluado en el MLE es el mismo que la matriz de información de Fisher observada evaluada en el MLE.
Con respecto a su pregunta principal: No, no es correcto que la información de Fisher observada se pueda encontrar invirtiendo el (negativo) Hessian.
Con respecto a su segunda pregunta: el inverso de la arpillera (negativa) es un estimador de la matriz de covarianza asintótica. Por lo tanto, las raíces cuadradas de los elementos diagonales de la matriz de covarianza son estimadores de los errores estándar.
Creo que el segundo documento al que se vinculó se equivocó.

Formalmente

Deje que sea una función de log-verosimilitud. La matriz de información de Fisher es una matriz simétrica que contiene las entradas: La matriz de información de Fisher observada es simplemente , la matriz de información evaluada en las estimaciones de máxima verosimilitud (MLE). El hessiano se define como: $l(\theta)$ $\mathbf{I}(\theta)$ $(p\times p)$

I (θ) = - \frac{\partial^{2}}{\partial θ_{i} \partial θ_{j}} l (θ), 1 \leq i, j \leq p

$\mathbf{I}(\theta)=-\frac{\partial^{2}}{\partial\theta_{i}\partial\theta_{j}}l(\theta),~~~~ 1\leq i, j\leq p$

I ({\hat{θ}}_{M L})

$\mathbf{I}(\hat{\theta}_{\mathrm{ML}})$

H (θ) = \frac{\partial^{2}}{\partial θ_{i} \partial θ_{j}} l (θ), 1 \leq i, j \leq p

$\mathbf{H}(\theta)=\frac{\partial^{2}}{\partial\theta_{i}\partial\theta_{j}}l(\theta),~~~~ 1\leq i, j\leq p$ No es más que la matriz de segundas derivadas de la función de probabilidad con respecto a los parámetros. De ello se deduce que si minimiza la probabilidad de registro negativa , la arpillera devuelta es el equivalente de la matriz de información de Fisher observada, mientras que en el caso de que maximice la probabilidad de registro, la arpillera negativa es la matriz de información observada.

Además, el inverso de la matriz de información de Fisher es un estimador de la matriz de covarianza asintótica: Los errores estándar son entonces las raíces cuadradas de los elementos diagonales de la matriz de covarianza. Para la distribución asintótica de una estimación de máxima verosimilitud, podemos escribir donde denota el valor del parámetro verdadero. Por lo tanto, el error estándar estimado de las estimaciones de máxima verosimilitud viene dado por:

V a r ({\hat{θ}}_{M L}) = [I ({\hat{θ}}_{M L})]^{- 1}

$\mathrm{Var}(\hat{\theta}_{\mathrm{ML}})=[\mathbf{I}(\hat{\theta}_{\mathrm{ML}})]^{-1}$

{\hat{θ}}_{M L} \overset{a}{\sim} N (θ_{0}, [I ({\hat{θ}}_{M L})]^{- 1})

$\hat{\theta}_{\mathrm{ML}}\stackrel{a}{\sim}\mathcal{N}\left(\theta_{0}, [\mathbf{I}(\hat{\theta}_{\mathrm{ML}})]^{-1}\right)$

θ_{0}

$\theta_{0}$

S E ({\hat{θ}}_{M L}) = \frac{1}{\sqrt{I ({\hat{θ}}_{M L})}}

$\mathrm{SE}(\hat{\theta}_{\mathrm{ML}})=\frac{1}{\sqrt{\mathbf{I}(\hat{\theta}_{\mathrm{ML}})}}$

— COOLSerdash
fuente

1

debería decir "cuando la probabilidad de registro negativa se minimiza " (u optimiza ).

— cmo

8

La información de Fisher (esperada) es ; la información observada (Fisher) es solo , llamada así porque no se evalúa en la estimación de máxima similitud de , sino porque es una función de los datos observados en lugar de un promedio sobre posibles observaciones. Tal vez esto esté oscurecido por ejemplos familiares que consideran la inferencia sobre el parámetro canónico en una familia exponencial completa, cuando .

I (θ) = E I (θ)

$\mathcal{I}(\theta)=\operatorname{E}I(\theta)$

I (θ)

$I(\theta)$

θ

$\theta$

I (θ) = I (θ)

$\mathcal{I}(\theta)=I(\theta)$

— Scortchi - Restablece a Monica

6

Estimar las funciones de probabilidad implica un proceso de dos pasos.

Primero, se declara la función log-verosimilitud. entonces uno optimiza las funciones de log-verosimilitud. Esta bien.

Al escribir las funciones de probabilidad de registro en R, pedimos (donde representa la función de probabilidad de registro) porque el comando optim en R minimiza una función por defecto. La minimización de -l es lo mismo que la maximización de l, que es lo que queremos. $-1*l$ $l$

Ahora, la matriz de información de Fisher observada es igual a . La razón por la que no tenemos que multiplicar el hassian por -1 es que toda la evaluación se ha realizado en términos de -1 veces la probabilidad logarítmica. Esto significa que el hessian producido por optim ya está multiplicado por -1 $(-H)^-1$

— Adelino Martins
fuente