Explicación intuitiva de la información de Fisher y el enlace Cramer-Rao

59

No me siento cómodo con la información de Fisher, lo que mide y cómo es útil. Además, su relación con el enlace Cramer-Rao no es evidente para mí.

¿Alguien puede dar una explicación intuitiva de estos conceptos?

estimation intuition fisher-information

— infinito
fuente

1

¿Hay algo en el artículo de Wikipedia que esté causando problemas? Mide la cantidad de información que una variable aleatoria observable lleva sobre un parámetro desconocido del cual depende la probabilidad de , y su inverso es el límite inferior de Cramer-Rao en la varianza de un estimador imparcial de .

X

$X$

θ

$\theta$

X

$X$

θ

$\theta$

— Henry

2

Entiendo eso, pero no estoy realmente cómodo con eso. Como, qué significa exactamente "cantidad de información" aquí. ¿Por qué la expectativa negativa del cuadrado de la derivada parcial de la densidad mide esta información? ¿De dónde viene la expresión, etc.? Es por eso que espero tener alguna intuición al respecto.

— Infinito

@Infinity: la puntuación es la tasa de cambio proporcional en la probabilidad de los datos observados a medida que cambia el parámetro, y es muy útil para la inferencia. La información de Fisher es la varianza de la puntuación (de cero). Así que matemáticamente es la expectativa del cuadrado de la primera derivada parcial del logaritmo de la densidad y también lo negativo de la expectativa de la segunda derivada parcial del logaritmo de la densidad.

— Henry

32

Aquí explico por qué la varianza asintótica del estimador de máxima verosimilitud es el límite inferior de Cramer-Rao. Con suerte, esto proporcionará una idea de la relevancia de la información de Fisher.

La inferencia estadística procede con el uso de una función de probabilidad que construye a partir de los datos. La estimación puntual es el valor que maximiza . El estimador es una variable aleatoria, pero ayuda a darse cuenta de que la función de probabilidad es una "curva aleatoria". $\mathcal{L}(\theta)$ $\hat{\theta}$ $\mathcal{L}(\theta)$ $\hat{\theta}$ $\mathcal{L}(\theta)$

Aquí asumimos los datos de iid extraídos de una distribución , y definimos la probabilidad $f(x|\theta)$

L (θ) = \frac{1}{n} \sum_{i = 1}^{n} \log f (x_{i} | θ)

$\mathcal{L}(\theta) = \frac{1}{n}\sum_{i=1}^n \log f(x_i|\theta)$

El parámetro tiene la propiedad de que maximiza el valor de la probabilidad "verdadera", . Sin embargo, la función de probabilidad "observada" que se construye a partir de los datos está ligeramente "fuera" de la probabilidad real. Sin embargo, como puede imaginar, a medida que aumenta el tamaño de la muestra, la probabilidad "observada" converge a la forma de la curva de probabilidad real. Lo mismo se aplica a la derivada de la probabilidad con respecto al parámetro, la función de puntaje . (Para resumir, la información de Fisher determina qué tan rápido converge la función de puntaje observada con la forma de la función de puntaje real. $\theta$ $\mathbb{E}\mathcal{L}(\theta)$ $\mathcal{L}(\theta)$ $\partial \mathcal{L}/\partial \theta$

Con un tamaño de muestra grande, suponemos que nuestra estimación de probabilidad máxima está muy cerca de . Nos acercamos a un pequeño vecindario alrededor de y para que la función de probabilidad sea "localmente cuadrática". $\hat{\theta}$ $\theta$ $\theta$ $\hat{\theta}$

Allí, es el punto en el que la función de puntuación cruza con el origen. En esta pequeña región, tratamos la función de puntuación como una línea , una con pendiente e intercepción aleatoria en . Sabemos por la ecuación de una línea que $\hat{\theta}$ $\partial \mathcal{L}/\partial \theta$ $a$ $b$ $\theta$

a (\hat{θ} - θ) + b = 0

$a(\hat{\theta} - \theta) + b = 0$

o

\hat{θ} = θ - b / a .

$\hat{\theta} = \theta - b/a .$

Por la consistencia del estimador MLE, sabemos que

E (\hat{θ}) = θ

$\mathbb{E}(\hat{\theta}) = \theta$

en el limite.

Por lo tanto, asintóticamente

n V a r (\hat{θ}) = n V a r (b / a)

$nVar(\hat{\theta}) = nVar(b/a)$

Resulta que la pendiente varía mucho menos que la intersección, y asintóticamente, podemos tratar la función de puntaje como una pendiente constante en un vecindario pequeño alrededor de . Así podemos escribir $\theta$

n V a r (\hat{θ}) = \frac{1}{a^{2}} n V a r (b)

$nVar(\hat{\theta}) = \frac{1}{a^2}nVar(b)$

Entonces, ¿cuáles son los valores de y ? Resulta que debido a una maravillosa coincidencia matemática, son la misma cantidad (módulo a signo menos), la información de Fisher. $a$ $nVar(b)$

- a = E [- \frac{\partial^{2} L}{\partial θ^{2}}] = I (θ)

$-a = \mathbb{E}\left[-\frac{\partial^2 \mathcal{L}}{\partial \theta^2}\right] = I(\theta)$

n V a r (b) = n V a r [\frac{\partial L}{\partial θ}] = I (θ)

$nVar(b) = nVar\left[\frac{\partial \mathcal{L}}{\partial \theta}\right] = I(\theta)$

Así,

n V a r (\hat{θ}) = \frac{1}{a^{2}} n V a r (b) = (1 / I (θ)^{2}) I (θ) = 1 / I (θ)

$nVar(\hat{\theta}) = \frac{1}{a^2}nVar(b) = (1/I(\theta)^2)I(\theta) = 1/I(\theta)$ asintóticamente : el límite inferior Cramer-Rao. (Mostrar que es el límite inferior de la varianza de un estimador imparcial es otra cuestión).

1 / I (θ)

$1/I(\theta)$

— charles.y.zheng
fuente

2

¿Hay alguna representación gráfica de la parte donde mencionas que la función de probabilidad es localmente cuadrática?

— quirik

@quirik, considere usar la expansión Taylor de segundo orden alrededor de theta_hat.

— idnavid

@ charles.y.zheng Esta es una de las explicaciones más interesantes de la escena.

— idnavid

13

Una forma de entender la información del pescador es mediante la siguiente definición:

I (θ) = \int_{X} \frac{\partial^{2} f (x | θ)}{\partial θ^{2}} d x - \int_{X} f (x | θ) \frac{\partial^{2}}{\partial θ^{2}} \log [f (x | θ)] d x

$I(\theta)=\int_{\cal{X}} \frac{\partial^{2}f(x|\theta)}{\partial \theta^{2}}dx-\int_{\cal{X}} f(x|\theta)\frac{\partial^{2}}{\partial \theta^{2}}\log[f(x|\theta)]dx$

La información de Fisher se puede escribir de esta manera siempre que la densidad sea dos veces diferenciable. Si el espacio muestral no depende del parámetro , entonces podemos usar la fórmula integral de Leibniz para mostrar que el primer término es cero (diferenciar ambos lados de dos veces y obtienes cero), y el segundo término es la definición "estándar". Tomaré el caso cuando el primer término sea cero. Los casos en que no es cero no son muy útiles para comprender la información de Fisher. $f(x|\theta)$ $\cal{X}$ $\theta$ $\int_{\cal{X}} f(x|\theta)dx=1$

Ahora, cuando realiza la estimación de máxima verosimilitud (inserte "condiciones de regularidad" aquí), establece

\frac{\partial}{\partial θ} \log [f (x | θ)] = 0

$\frac{\partial}{\partial \theta}\log[f(x|\theta)]=0$

Y resuelve para . Entonces, la segunda derivada dice qué tan rápido está cambiando el gradiente y, en cierto sentido, "qué tan lejos" puede alejarse del MLE sin hacer un cambio apreciable en el lado derecho de la ecuación anterior. Otra forma de pensar es imaginar una "montaña" dibujada en el papel: esta es la función de probabilidad de registro. Resolver la ecuación MLE anterior te dice dónde se encuentra el pico de esta montaña en función de la variable aleatoria . La segunda derivada te dice cuán empinada es la montaña, lo que en cierto sentido te dice lo fácil que es encontrar el pico de la montaña. La información de Fisher proviene de tomar la pendiente esperada del pico, por lo que tiene un poco de interpretación "previa a los datos". $\theta$ $\theta$ $x$

Una cosa que todavía me parece curiosa es que es lo pronunciada que es la probabilidad logarítmica y no lo empinada que es alguna otra función monotónica de la probabilidad (¿quizás relacionada con funciones de puntuación "adecuadas" en la teoría de la decisión? O tal vez con los axiomas de consistencia de la entropía ?)

La información de Fisher también "aparece" en muchos análisis asintóticos debido a lo que se conoce como la aproximación de Laplace. Esto se debe básicamente al hecho de que cualquier función con un aumento máximo único "bien redondeado" a una potencia cada vez mayor entra en una función gaussiana (similar al Teorema del límite central, pero un poco más general). Entonces, cuando tiene una muestra grande, está efectivamente en esta posición y puede escribir: $\exp(-ax^{2})$

f (d a t a | θ) = \exp (\log [f (d a t a | θ)])

$f(data|\theta)=\exp(\log[f(data|\theta)])$

Y cuando usted amplía la probabilidad de registro sobre el MLE:

f (d a t a | θ) \approx [f (d a t a | θ)]_{θ = θ_{M L E}} \exp (- \frac{1}{2} {[- \frac{\partial^{2}}{\partial θ^{2}} \log [f (d a t a | θ)]]}_{θ = θ_{M L E}} (θ - θ_{M L E})^{2})

$f(data|\theta)\approx [f(data|\theta)]_{\theta=\theta_{MLE}}\exp\left(-\frac{1}{2}\left[-\frac{\partial^{2}}{\partial \theta^{2}}\log[f(data|\theta)]\right]_{\theta=\theta_{MLE}}(\theta-\theta_{MLE})^{2}\right)$ y esa segunda derivada del log-verosimilitud aparece (pero en forma "observada" en lugar de "esperada"). Lo que generalmente se hace aquí es hacer una aproximación adicional:

- \frac{\partial^{2}}{\partial θ^{2}} \log [f (d a t a | θ)] = n (- \frac{1}{n} \sum_{i = 1}^{n} \frac{\partial^{2}}{\partial θ^{2}} \log [f (x_{i} | θ)]) \approx n I (θ)

$-\frac{\partial^{2}}{\partial \theta^{2}}\log[f(data|\theta)]=n\left(-\frac{1}{n}\sum_{i=1}^{n}\frac{\partial^{2}}{\partial \theta^{2}}\log[f(x_{i}|\theta)]\right)\approx nI(\theta)$

Lo que equivale a la aproximación generalmente buena de reemplazar una suma por una integral, pero esto requiere que los datos sean independientes. Entonces, para muestras independientes grandes (dada ), puede ver que la información de Fisher es cuán variable es el MLE, para varios valores del MLE. $\theta$

— probabilidadislogica
fuente

1

"Una cosa que todavía me parece curiosa es que es lo empinada que es la probabilidad de registro y no lo empinada que es alguna otra función monotónica de la probabilidad". Estoy seguro de que podría derivar análogos para la información de Fisher en términos de otras transformaciones de la probabilidad, pero entonces no obtendría una expresión tan clara para el límite inferior de Cramer-Rao.

— charles.y.zheng

2

Este es el artículo más intuitivo que he visto hasta ahora:

El límite inferior de Cramér-Rao sobre la varianza: el "Principio de incertidumbre" de Adán y Eva por Michael R. Powers, Journal of Risk Finance, vol. 7, N ° 3, 2006

El límite se explica por una analogía de Adán y Eva en el Jardín del Edén lanzando una moneda para ver quién puede comer la fruta y luego se preguntan qué tan grande es necesaria una muestra para lograr un cierto nivel de precisión en su estimación, y luego descubren este límite ...

Bonita historia con un mensaje profundo sobre la realidad de hecho.

— vonjd
fuente

66

Gracias por publicar esta referencia. Sin embargo, al final me decepcionó descubrir que en realidad no explica el CRLB. Simplemente lo declara, sin proporcionar ninguna idea de por qué es cierto, y solo proporciona un lenguaje evocador pero en última instancia sin sentido, como "exprimir información", en un esfuerzo por explicarlo.

— whuber

@whuber: Bastante justo, estoy de acuerdo en que podría profundizar más y el final es un poco brusco. Sin embargo, lo que me gusta del artículo es que realmente parece natural que haya una conexión entre el tamaño de la muestra, la media de la muestra, la ley de los grandes números y que la varianza de la muestra solo se puede reducir hasta cierto punto (es decir, debe haber algunos vinculados , que resulta ser el mencionado anteriormente). También deja en claro que este no es un resultado matemático difícil de alcanzar, sino realmente una declaración sobre los límites de obtener conocimiento de la realidad.

— vonjd

2

Aunque las explicaciones proporcionadas anteriormente son muy interesantes y he disfrutado de leerlas, creo que la naturaleza del Límite Inferior Cramer-Rao me fue mejor explicada desde una perspectiva geométrica. Esta intuición es un resumen del concepto de elipses de concentración del capítulo 6 del libro de Scharf sobre procesamiento estadístico de señales .

Considere cualquier estimador imparcial de . Además, suponga que el estimador tiene una distribución gaussiana con covarianza . En estas condiciones, la distribución de es proporcional a: ${\boldsymbol\theta}$ $\hat{\boldsymbol\theta}$ ${\boldsymbol\Sigma}$ $\hat{\boldsymbol\theta}$

$f(\hat{\boldsymbol\theta})\propto \exp(-\frac{1}{2}(\hat{\boldsymbol\theta}-{\boldsymbol\theta})^T{\boldsymbol\Sigma}^{-1}(\hat{\boldsymbol\theta}-{\boldsymbol\theta}))$ .

Ahora piense en las gráficas de contorno de esta distribución para . Cualquier restricción de límite superior en la probabilidad de (es decir, ) dará como resultado un elipsoide centrado en con radio fijo . Es fácil demostrar que existe una relación uno a uno entre el radio del elipsoide y la probabilidad deseada . En otras palabras, está cerca de dentro de un elipsoide determinado por el radio con probabilidad ${\boldsymbol\theta}\in R^2$ $\hat{\boldsymbol\theta}$ $\int f(\hat{\boldsymbol\theta})d{\boldsymbol\theta} \le P_r$ ${\boldsymbol\theta}$ $r$ $r$ $P_r$ $\hat{\boldsymbol\theta}$ ${\boldsymbol\theta}$ $r$ $P_r$ . Este elipsoide se llama elipsoide de concentración.

Teniendo en cuenta la descripción anterior, podemos decir lo siguiente sobre el CRLB. Entre todos los estimadores imparciales, el CRLB representa un estimador con covarianza que, para la probabilidad fija de "cercanía" (como se definió anteriormente), tiene el más pequeño concentración elipsoide. La siguiente figura proporciona una ilustración en 2D (inspirada en la ilustración del libro de Scharf ). $\hat{\boldsymbol\theta}_{crlb}$ $\boldsymbol\Sigma_{crlb}$ $P_r$

— idnavid
fuente

2

Bueno, esto es genial, especialmente la imagen, necesita más votos a favor.

— Astrid