No me siento cómodo con la información de Fisher, lo que mide y cómo es útil. Además, su relación con el enlace Cramer-Rao no es evidente para mí.
¿Alguien puede dar una explicación intuitiva de estos conceptos?
No me siento cómodo con la información de Fisher, lo que mide y cómo es útil. Además, su relación con el enlace Cramer-Rao no es evidente para mí.
¿Alguien puede dar una explicación intuitiva de estos conceptos?
Respuestas:
Aquí explico por qué la varianza asintótica del estimador de máxima verosimilitud es el límite inferior de Cramer-Rao. Con suerte, esto proporcionará una idea de la relevancia de la información de Fisher.
La inferencia estadística procede con el uso de una función de probabilidad que construye a partir de los datos. La estimación puntual es el valor que maximiza . El estimador es una variable aleatoria, pero ayuda a darse cuenta de que la función de probabilidad es una "curva aleatoria".θ L ( θ ) θ L ( θ )
Aquí asumimos los datos de iid extraídos de una distribución , y definimos la probabilidad L ( θ ) = 1
El parámetro tiene la propiedad de que maximiza el valor de la probabilidad "verdadera", . Sin embargo, la función de probabilidad "observada" que se construye a partir de los datos está ligeramente "fuera" de la probabilidad real. Sin embargo, como puede imaginar, a medida que aumenta el tamaño de la muestra, la probabilidad "observada" converge a la forma de la curva de probabilidad real. Lo mismo se aplica a la derivada de la probabilidad con respecto al parámetro, la función de puntaje . (Para resumir, la información de Fisher determina qué tan rápido converge la función de puntaje observada con la forma de la función de puntaje real.E L ( θ ) L ( θ ) ∂ L / ∂ θ
Con un tamaño de muestra grande, suponemos que nuestra estimación de probabilidad máxima está muy cerca de . Nos acercamos a un pequeño vecindario alrededor de y para que la función de probabilidad sea "localmente cuadrática". thetatheta theta
Allí, es el punto en el que la función de puntuación cruza con el origen. En esta pequeña región, tratamos la función de puntuación como una línea , una con pendiente e intercepción aleatoria en . Sabemos por la ecuación de una línea que ∂L/∂θunbθ
o
Por la consistencia del estimador MLE, sabemos que
en el limite.
Por lo tanto, asintóticamente
Resulta que la pendiente varía mucho menos que la intersección, y asintóticamente, podemos tratar la función de puntaje como una pendiente constante en un vecindario pequeño alrededor de . Así podemos escribir
Entonces, ¿cuáles son los valores de y ? Resulta que debido a una maravillosa coincidencia matemática, son la misma cantidad (módulo a signo menos), la información de Fisher.
Así,
1/I(θ)
Una forma de entender la información del pescador es mediante la siguiente definición:
La información de Fisher se puede escribir de esta manera siempre que la densidad sea dos veces diferenciable. Si el espacio muestral no depende del parámetro , entonces podemos usar la fórmula integral de Leibniz para mostrar que el primer término es cero (diferenciar ambos lados de dos veces y obtienes cero), y el segundo término es la definición "estándar". Tomaré el caso cuando el primer término sea cero. Los casos en que no es cero no son muy útiles para comprender la información de Fisher.
Ahora, cuando realiza la estimación de máxima verosimilitud (inserte "condiciones de regularidad" aquí), establece
Y resuelve para . Entonces, la segunda derivada dice qué tan rápido está cambiando el gradiente y, en cierto sentido, "qué tan lejos" puede alejarse del MLE sin hacer un cambio apreciable en el lado derecho de la ecuación anterior. Otra forma de pensar es imaginar una "montaña" dibujada en el papel: esta es la función de probabilidad de registro. Resolver la ecuación MLE anterior te dice dónde se encuentra el pico de esta montaña en función de la variable aleatoria . La segunda derivada te dice cuán empinada es la montaña, lo que en cierto sentido te dice lo fácil que es encontrar el pico de la montaña. La información de Fisher proviene de tomar la pendiente esperada del pico, por lo que tiene un poco de interpretación "previa a los datos".
Una cosa que todavía me parece curiosa es que es lo pronunciada que es la probabilidad logarítmica y no lo empinada que es alguna otra función monotónica de la probabilidad (¿quizás relacionada con funciones de puntuación "adecuadas" en la teoría de la decisión? O tal vez con los axiomas de consistencia de la entropía ?)
La información de Fisher también "aparece" en muchos análisis asintóticos debido a lo que se conoce como la aproximación de Laplace. Esto se debe básicamente al hecho de que cualquier función con un aumento máximo único "bien redondeado" a una potencia cada vez mayor entra en una función gaussiana (similar al Teorema del límite central, pero un poco más general). Entonces, cuando tiene una muestra grande, está efectivamente en esta posición y puede escribir:
Y cuando usted amplía la probabilidad de registro sobre el MLE:
Lo que equivale a la aproximación generalmente buena de reemplazar una suma por una integral, pero esto requiere que los datos sean independientes. Entonces, para muestras independientes grandes (dada ), puede ver que la información de Fisher es cuán variable es el MLE, para varios valores del MLE.
Este es el artículo más intuitivo que he visto hasta ahora:
El límite se explica por una analogía de Adán y Eva en el Jardín del Edén lanzando una moneda para ver quién puede comer la fruta y luego se preguntan qué tan grande es necesaria una muestra para lograr un cierto nivel de precisión en su estimación, y luego descubren este límite ...
Bonita historia con un mensaje profundo sobre la realidad de hecho.
Aunque las explicaciones proporcionadas anteriormente son muy interesantes y he disfrutado de leerlas, creo que la naturaleza del Límite Inferior Cramer-Rao me fue mejor explicada desde una perspectiva geométrica. Esta intuición es un resumen del concepto de elipses de concentración del capítulo 6 del libro de Scharf sobre procesamiento estadístico de señales .
Considere cualquier estimador imparcial de . Además, suponga que el estimador tiene una distribución gaussiana con covarianza . En estas condiciones, la distribución de es proporcional a:
.
Ahora piense en las gráficas de contorno de esta distribución para . Cualquier restricción de límite superior en la probabilidad de (es decir, ) dará como resultado un elipsoide centrado en con radio fijo . Es fácil demostrar que existe una relación uno a uno entre el radio del elipsoide y la probabilidad deseada . En otras palabras, está cerca de dentro de un elipsoide determinado por el radio con probabilidad. Este elipsoide se llama elipsoide de concentración.
Teniendo en cuenta la descripción anterior, podemos decir lo siguiente sobre el CRLB. Entre todos los estimadores imparciales, el CRLB representa un estimador con covarianza que, para la probabilidad fija de "cercanía" (como se definió anteriormente), tiene el más pequeño concentración elipsoide. La siguiente figura proporciona una ilustración en 2D (inspirada en la ilustración del libro de Scharf ).