¿Por qué se usa exactamente la información de Fisher observada?

17

En el ajuste estándar de máxima verosimilitud (iid muestra $Y_{1}, \ldots, Y_{n}$ de alguna distribución con densidad $f_{y}(y|\theta_{0}$ )) y en el caso de un modelo correctamente especificado, la información de Fisher viene dada por

I (θ) = - E_{θ_{0}} [\frac{\partial^{2}}{θ^{2}} \ln f_{y} (θ)]

$I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right]$

donde se toma la expectativa con respecto a la densidad real que generó los datos. He leído que la información observada de Fisher

\hat{J} (θ) = - \frac{\partial^{2}}{θ^{2}} \ln f_{y} (θ)

$\hat{J}(\theta) = -\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta)$

se usa principalmente porque la integral involucrada en el cálculo de la Información de Fisher (esperada) podría no ser factible en algunos casos. Lo que me confunde es que incluso si la integral es factible, se debe tener una expectativa con respecto al modelo verdadero, que involucra el valor del parámetro desconocido . Si ese es el caso, parece que sin saber es imposible calcular . ¿Es esto cierto? $\theta_{0}$ $\theta_{0}$ $I$

maximum-likelihood fisher-information

— user2249626
fuente

13

Tienes cuatro quanties aquí: el verdadero parámetro , una estimación consistente , la información esperada en y la información observada en . Estas cantidades solo son equivalentes asintóticamente, pero así es típicamente como se usan. $\theta_0$ $\hat \theta$ $I(\theta)$ $\theta$ $J(\theta)$ $\theta$

La información observada converge en probabilidad a la información esperada
$J (θ_{0}) = \frac{1}{N} \sum_{i = 1}^{N} \frac{\partial^{2}}{\partial θ_{0}^{2}} \ln f (y_{i} | θ_{0})$ $J (\theta_0) = \frac{1}{N} \sum_{i=1}^N \frac{\partial^2}{\partial \theta_0^2} \ln f( y_i|\theta_0)$ cuandoes una muestra iid de . Aquíindica la expectativa w / r / t la distribución indexada por:. Esta convergencia se cumple debido a la ley de los grandes números, por lo que se supone que $I (θ_{0}) = E_{θ_{0}} [\frac{\partial^{2}}{\partial θ_{0}^{2}} \ln f (y | θ_{0})]$ $I(\theta_0) = E_{\theta_0} \left[ \frac{\partial^2}{\partial \theta_0^2} \ln f( y| \theta_0) \right]$ $Y$ $f(\theta_0)$ $E_{\theta_0} (x)$ $\theta_0$ $\int x f(x | \theta_0) dx$ es crucial aquí. $Y \sim f(\theta_0)$
Cuando se tiene una estimación que converge en probabilidad al verdadero parámetro (es decir, es coherente), entonces se puede sustituir por cualquier lugar que vea un arriba, esencialmente debido al teorema de la aplicación continua , y todos de las convergencias se mantienen. $\hat \theta$ $\theta_0$ $\theta_0$ $^*$

En realidad, parece serun poco sutil. $^*$

Observación

Como supusiste, la información observada suele ser más fácil de trabajar porque la diferenciación es más fácil que la integración, y es posible que ya la hayas evaluado en el transcurso de alguna optimización numérica. En algunas circunstancias (la distribución Normal) serán lo mismo.

El artículo "Evaluación de la precisión del estimador de máxima verosimilitud: información de pesca observada versus esperada" por Efron y Hinkley (1978) hace un argumento a favor de la información observada para muestras finitas.

— Andrew M
fuente

4

Se han realizado algunos estudios de simulación que parecen respaldar las observaciones teóricas de Efron y Hinkley (que se mencionan en la respuesta de Andrew), he aquí uno que conozco de antemano: Maldonado, G. y Greenland, S. (1994). Una comparación del rendimiento de los intervalos de confianza basados en modelos cuando se desconoce la forma correcta del modelo. Epidemiología, 5, 171-182. No he visto ningún estudio que entre en conflicto. Es interesante que los paquetes GLM estándar que conozco usen la información esperada para calcular los intervalos de Wald. Por supuesto, esto no es un problema cuando (como en los GLM lineales en el parámetro natural) las matrices de información observadas y esperadas son iguales.

— Sander Groenlandia
fuente