Interpretación de la derivada del radón-Nikodym entre medidas de probabilidad?

He visto en algunos puntos el uso de la derivada Radon-Nikodym de una medida de probabilidad con respecto a otra, especialmente en la divergencia Kullback-Leibler, donde es la derivada de la medida de probabilidad de un modelo para algún parámetro arbitrario con respecto al parámetro real : $\theta$ $\theta_0$

\frac{d P_{θ}}{d P_{θ_{0}}}

$\frac {dP_\theta}{dP_{\theta_0}}$

Donde ambas son medidas de probabilidad en el espacio de puntos de datos condicionales a un valor de parámetro: . $P_\theta(D)=P(D|\theta)$

¿Cuál es la interpretación de una derivada de Radon-Nikodym en la divergencia Kullback-Leibler, o más generalmente entre dos medidas de probabilidad?

— usuario56834
fuente

Primero, no necesitamos medidas de probabilidad, solo -finiteness. Así que vamos a sea un espacio medible y dejar que y ser medidas -finite en . $\sigma$ $\mathcal M = (\Omega, \mathscr F)$ $\mu$ $\nu$ $\sigma$ $\mathcal M$

El teorema de Radon-Nikodym establece que si para todo , denotado por , entonces existe un Borel no negativo función tal que para todos los . $\mu(A) = 0 \implies \nu(A) = 0$ $A \in \mathscr F$ $\mu \gg \nu$ $f$

ν (A) = \int_{A} f d μ

$\nu(A) = \int_A f \,\text d\mu$

A \in F

$A \in \mathscr F$

Así es como me gusta pensar en esto. Primero, para cualesquiera dos medidas en , definamos como . Esta es una relación de equivalencia válida y decimos que y son equivalentes en este caso. ¿Por qué es esto una equivalencia sensata para las medidas? Las medidas son solo funciones, pero sus dominios son difíciles de visualizar. ¿Qué pasa si dos funciones ordinarias tienen esta propiedad, es decir, ? Bueno, defina y tenga en cuenta que en cualquier lugar con el apoyo de $\mathcal M$ $\mu \sim \nu$ $\mu(A) = 0 \iff \nu(A) = 0$ $\mu$ $\nu$ $f, g :\mathbb R \to \mathbb R$ $f(x) = 0 \iff g(x) = 0$

h (x) = {\begin{cases} f (x) / g (x) & g (x) \neq 0 \\ π^{e} & o.w. \end{cases}

$h(x) = \begin{cases} f(x) / g(x) & g(x) \neq 0 \\ \pi^e & \text{o.w.}\end{cases}$

g

$g$ tenemos , y fuera del soporte de (ya que y comparten soportes) entonces nos permite reescalar en . Como señala @whuber, la idea clave aquí no es que sea de alguna manera "seguro" para hacer o ignorar, sino que cuando no importa lo que haga , así que podemos definirlo arbitrariamente (como ser que no tiene un significado especial aquí) y las cosas aún funcionan. También en este caso podemos definir la función análoga con para que

g h = f

$gh = f$

g

$g$

g h = 0 \cdot π^{e} = 0 = f

$gh = 0 \cdot \pi^e = 0 = f$

f

$f$

g

$g$

h

$h$

g

$g$

f

$f$

0 / 0

$0/0$

g = 0

$g = 0$

h

$h$

π^{e}

$\pi^e$

h^{'}

$h'$

g / f

$g / f$

f h^{'} = g

$fh' = g$ .

Luego suponga que , pero la otra dirección no necesariamente se cumple. Esto significa que nuestra definición anterior de todavía funciona, pero ahora no funciona ya que tendrá divisiones reales entre . Por lo tanto, podemos reescalar en mediante , pero no podemos ir en la otra dirección porque tendríamos que reescalar algo en algo que no sea cero. $g(x) = 0 \implies f(x) = 0$ $h$ $h'$ $0$ $g$ $f$ $gh = f$ $0$

Ahora regresemos a y y denotemos nuestro RND por . Si , esto intuitivamente significa que uno puede reescalarse en el otro, y viceversa. Pero generalmente solo queremos ir en una dirección con esto (es decir, cambiar la escala de una buena medida como la medida de Lebesgue a una medida más abstracta), por lo que solo necesitamos para hacer cosas útiles. Este cambio de escala es el corazón de la RND. $\mu$ $\nu$ $f$ $\mu \sim \nu$ $\mu \gg \nu$

Volviendo al punto de @ whuber en los comentarios, hay una sutileza adicional de por qué es seguro ignorar el problema de . Esto se debe a que con las medidas solo estamos definiendo cosas hasta conjuntos de medidas por lo que en cualquier conjunto con podemos hacer que nuestro RND tome cualquier valor, digamos . Por lo tanto, no es que sea intrínsecamente seguro, sino que en cualquier lugar donde tendríamos es un conjunto de medidas wrt para que podamos definir nuestro RND como algo agradable allí sin afectar nada. $0/0$ $0$ $A$ $\mu(A) = 0$ $1$ $0/0$ $0/0$ $0$ $\mu$

Como ejemplo, supongamos que para algunos . Entonces entonces tenemos que es el RND (esto puede justificarse más formalmente por el teorema del cambio de medidas). Esto es bueno porque hemos recuperado exactamente el factor de escala. $k \cdot \mu = \nu$ $k > 0$

ν (A) = \int_{A} d ν = \int_{A} k d μ

$\nu(A) = \int_A \,\text d\nu = \int_A k \,\text d \mu$

f (x) = k = \frac{d ν}{d μ}

$f(x) = k = \frac{\text d\nu}{\text d\mu}$

Aquí hay un segundo ejemplo para enfatizar cómo cambiar los RND en conjuntos de medida no los afecta. Sea , es decir, es el PDF normal estándar más si la entrada es racional, y sea un RV con esta densidad. Esto significa por lo que en realidad sigue siendo un RV gaussiano estándar. No ha afectado la distribución de ninguna manera para cambiar en porque es un conjunto de medida wrt $0$ $f(x) = \varphi(x) + 1_{\mathbb Q}(x)$ $1$ $X$

P (X \in A) = \int_{A} (φ + 1_{Q}) d λ

$P(X \in A) = \int_A \left(\varphi + 1_{\mathbb Q}\right) \,\text d\lambda$

= \int_{A} φ d λ + λ (Q) = \int_{A} φ d λ

$= \int_A \varphi \,\text d\lambda + \lambda\left(\mathbb Q \right) =\int_A \varphi \,\text d\lambda$

X

$X$

X

$X$

Q

$\mathbb Q$

0

$0$

λ

$\lambda$ .

Como último ejemplo, suponga que e y deje que y sean sus respectivas distribuciones. Recuerde que un pmf es un RND con respecto a la medida de conteo , y dado que tiene la propiedad de que , resulta que $X \sim \text{Pois}(\eta)$ $Y \sim \text{Bin}(n, p)$ $P_X$ $P_Y$ $c$ $c$ $c(A) = 0 \iff A = \emptyset$

\frac{d P_{Y}}{d P_{X}} = \frac{d P_{Y} / d c}{d P_{X} / d c} = \frac{f_{Y}}{f_{X}}

$\frac{\text dP_Y}{\text dP_X} = \frac{\text dP_Y / \text dc}{\text dP_X / \text dc} = \frac{f_Y}{f_X}$

para que podamos calcular

P_{Y} (A) = \int_{A} d P_{Y}

$P_Y(A) = \int_A \,\text dP_Y$

= \int_{A} \frac{d P_{Y}}{d P_{X}} d P_{X} = \int_{A} \frac{d P_{Y}}{d P_{X}} \frac{d P_{X}}{d c} d c

$= \int_A \frac{\text dP_Y}{\text dP_X}\,\text dP_X = \int_A \frac{\text dP_Y}{\text dP_X}\frac{\text dP_X}{\text dc}\,\text dc$

= \sum_{y \in A} \frac{d P_{Y}}{d P_{X}} (y) \frac{d P_{X}}{d c} (y) = \sum_{y \in A} \frac{f_{Y} (y)}{f_{X} (y)} f_{X} (y) = \sum_{y \in A} f_{Y} (y) .

$= \sum_{y \in A} \frac{\text dP_Y}{\text dP_X}(y)\frac{\text dP_X}{\text dc}(y) = \sum_{y \in A} \frac{f_Y(y)}{f_X(y)}f_X(y) = \sum_{y \in A} f_Y(y).$

Por lo tanto, debido a que para todo en el soporte de , podemos reescalar la integración con respecto a una distribución de Poisson en integración con respecto a una distribución binomial, aunque debido a que todo es discreto resulta trivial resultado. $P(X = n) > 0$ $n$ $Y$

Abordé tu pregunta más general, pero no toqué las divergencias de KL. Para mí, al menos, encuentro que la divergencia de KL es mucho más fácil de interpretar en términos de pruebas de hipótesis como la respuesta de @kjetil b halvorsen aquí . Si y existe una medida que domina a ambos, entonces se usa podemos recuperar la forma con densidades, así que para mí eso es más fácil. $P \ll Q$ $\mu$ $\frac{\text dP}{\text dQ} = \frac{\text dP / \text d\mu}{\text dQ / \text d\mu} := p / q$

— jld
fuente

Disfruté de esta exposición (ya que disfruto de todas sus contribuciones), pero en el fondo parece estar basada en la afirmación (repetida) de que tiene algún tipo de sentido, pero no es así. Algo sucede con las medidas que no sucede automáticamente con las funciones de los valores reales: simplemente puede ignorar lo que sucede en los conjuntos de medida cero. Así es como evita tener que tener sentido en la configuración de derivada Radon-Nikodym.

0 / 0

$0/0$

0 / 0

$0/0$

— whuber

@whuber muchas gracias por el comentario, eso realmente ayuda. He intentado actualizar para abordar eso

— jld