Intentando complementar las otras respuestas ... ¿Qué tipo de información es la información de Fisher? Comience con la función loglikelihood
como una función de para , el espacio de parámetros. Suponiendo algunas condiciones de regularidad que no discutimos aquí, tenemos
(escribiremos derivados con respecto al parámetro como puntos como aquí). La variación es la información de Fisher
ℓ(θ)=logf(x;θ)
θθ∈ΘE∂∂θℓ(θ)=Eθℓ˙(θ)=0I(θ)=Eθ(ℓ˙(θ))2=−Eθℓ¨(θ)
la última fórmula muestra que es la curvatura (negativa) de la función de verosimilitud. A menudo se encuentra el estimador de máxima verosimilitud (mle) de resolviendo la ecuación de verosimilitud cuando la información de Fisher es la varianza de la puntuación es grande, entonces la solución a esa ecuación será muy sensible a los datos, dando la esperanza de una alta precisión del archivo. Eso se confirma al menos asintóticamente, siendo la varianza asintótica del mle la inversa de la información de Fisher.
θℓ˙(θ)=0ℓ˙(θ)
¿Cómo podemos interpretar esto? es la información de probabilidad sobre el parámetro de la muestra. Esto solo se puede interpretar en un sentido relativo, como cuando lo usamos para comparar las posibilidades de dos valores distintos de parámetros posibles a través de la prueba de razón de probabilidad . La tasa de cambio de loglikelihood es la función de puntuación nos dice qué tan rápido cambia la probabilidad, y su varianza cuánto varía esto de una muestra a otra, en un parámetro dado valor, digamos . La ecuación (¡lo cual es realmente sorprendente!)
ℓ(θ)θℓ(θ0)−ℓ(θ1)ℓ˙(θ)I(θ)θ0
I(θ)=−Eθℓ¨(θ)
nos dice que hay una relación (igualdad) entre la variabilidad en la información (probabilidad) para un valor de parámetro dado, , y la curvatura de la función de probabilidad para ese valor de parámetro. Esta es una relación sorprendente entre la variabilidad (varianza) de esta estadística y el cambio esperado en la semejanza cuando variamos el parámetro en algún intervalo (para los mismos datos). ¡Esto es realmente extraño, sorprendente y poderoso!
θ0ℓ˙(θ)∣θ=θ0θθ0
Entonces, ¿cuál es la función de probabilidad? Generalmente pensamos en el modelo estadístico como una familia de distribuciones de probabilidad para los datos , indexados por el parámetro algún elemento en el espacio de parámetros . Pensamos en este modelo como verdadero si existe algún valor tal manera que los datos realmente tengan la distribución de probabilidad . Entonces obtenemos un modelo estadístico al incrustar la distribución de probabilidad de generación de datos verdadera{f(x;θ),θ∈Θ}xθΘθ0∈Θxf(x;θ0)f(x;θ0)en una familia de distribuciones de probabilidad. Pero, está claro que tal incrustación se puede hacer de muchas maneras diferentes, y cada una de esas incrustaciones será un modelo "verdadero", y darán diferentes funciones de probabilidad. Y, sin tal incrustación, no hay función de probabilidad. ¡Parece que realmente necesitamos algo de ayuda, algunos principios sobre cómo elegir una incrustación sabiamente!
¿Entonces, qué significa esto? Significa que la elección de la función de probabilidad nos dice cómo esperaríamos que los datos cambien, si la verdad cambia un poco. Pero esto no puede ser verificado realmente por los datos, ya que los datos solo dan información sobre la verdadera función del modelo que realmente generó los datos, y no nada sobre todos los otros elementos en el modelo elegido. De esta manera, vemos que la elección de la función de probabilidad es similar a la elección de un previo en el análisis bayesiano, inyecta información que no es de datos en el análisis. Miremos esto en un ejemplo simple (algo artificial), y veamos el efecto de incrustar en un modelo de diferentes maneras.f(x;θ0)f(x;θ0)
Supongamos que son iid como . Entonces, esa es la verdadera distribución generadora de datos. Ahora, incrustemos esto en un modelo de dos maneras diferentes, modelo A y modelo B.
puede comprobar que esto coincide para .X1,…,XnN(μ=10,σ2=1)
A:X1,…,Xn iid N(μ,σ2=1),μ∈RB:X1,…,Xn iid N(μ,μ/10),μ>0
μ=10
Las funciones de verosimilitud se convierten en
ℓA(μ)=−n2log(2π)−12∑i(xi−μ)2ℓB(μ)=−n2log(2π)−n2log(μ/10)−102∑i(xi−μ)2μ
Las funciones de puntuación: (derivados de loglikelihood):
y las curvaturas
entonces, la información de Fisher realmente depende de la incrustación. Ahora, calculamos la información de Fisher en el valor verdadero ,
por lo que la información de Fisher sobre el parámetro es algo mayor en el modelo B.
ℓ˙A(μ)=n(x¯−μ)ℓ˙B(μ)=−n2μ−102∑i(xiμ)2−15n
ℓ¨A(μ)=−nℓ¨B(μ)=n2μ2+102∑i2x2iμ3
μ=10IA(μ=10)=n,IB(μ=10)=n⋅(1200+20202000)>n
Esto ilustra que, en cierto sentido, la información de Fisher nos dice qué tan rápido la información de los datos sobre el parámetro habría cambiado si el parámetro rector hubiera cambiado de la manera postulada por la incorporación en una familia modelo . La explicación de una mayor información en el modelo B es que nuestra familia modelo B postula que si la expectativa hubiera aumentado, entonces la variación también habría aumentado . De modo que, en el modelo B, la varianza de la muestra también llevará información sobre , lo que no hará en el modelo A.μ
Además, este ejemplo ilustra que realmente necesitamos algo de teoría para ayudarnos a construir familias modelo.