Primero, no necesitamos medidas de probabilidad, solo -finiteness. Así que vamos a sea un espacio medible y dejar que y ser medidas -finite en .M = ( Ω , F ) μ ν σ MσM=(Ω,F)μνσM
El teorema de Radon-Nikodym establece que si para todo , denotado por , entonces existe un Borel no negativo función tal que
para todos los .A ∈ F μ ≫ ν f ν ( A ) = ∫ A fμ(A)=0⟹ν(A)=0A∈Fμ≫νfA ∈ F
ν(A)=∫Afdμ
A∈F
Así es como me gusta pensar en esto. Primero, para cualesquiera dos medidas en , definamos como . Esta es una relación de equivalencia válida y decimos que y son equivalentes en este caso. ¿Por qué es esto una equivalencia sensata para las medidas? Las medidas son solo funciones, pero sus dominios son difíciles de visualizar. ¿Qué pasa si dos funciones ordinarias tienen esta propiedad, es decir, ? Bueno, defina
y tenga en cuenta que en cualquier lugar con el apoyo de μ ∼ ν μ ( A ) = 0Mμ∼νμ ν f , g : R → R f ( x ) = 0μ(A)=0⟺ν(A)=0μνf,g:R→Rh ( x ) = { f ( x ) / g ( x ) g ( x ) ≠ 0 π e o.w. g g h = f g g h = 0 ⋅ π e = 0 = f f g h g f 0 / 0 g = 0 h π ef(x)=0⟺g(x)=0
h(x)={f(x)/g(x)πeg(x)≠0o.w.
g tenemos , y fuera del soporte de (ya que y comparten soportes) entonces nos permite reescalar en . Como señala @whuber, la idea clave aquí no es que sea de alguna manera "seguro" para hacer o ignorar, sino que cuando no importa lo que haga , así que podemos definirlo arbitrariamente (como ser que no tiene un significado especial aquí) y las cosas aún funcionan. También en este caso podemos definir la función análoga con para que
gh=fg gh=0⋅πe=0=ffghgf0/0g=0hπeh′g/ffh′=g .
Luego suponga que , pero la otra dirección no necesariamente se cumple. Esto significa que nuestra definición anterior de todavía funciona, pero ahora no funciona ya que tendrá divisiones reales entre . Por lo tanto, podemos reescalar en mediante , pero no podemos ir en la otra dirección porque tendríamos que reescalar algo en algo que no sea cero.g(x)=0⟹f(x)=0hh′0gfgh=f0
Ahora regresemos a y y denotemos nuestro RND por . Si , esto intuitivamente significa que uno puede reescalarse en el otro, y viceversa. Pero generalmente solo queremos ir en una dirección con esto (es decir, cambiar la escala de una buena medida como la medida de Lebesgue a una medida más abstracta), por lo que solo necesitamos para hacer cosas útiles. Este cambio de escala es el corazón de la RND.μνfμ∼νμ≫ν
Volviendo al punto de @ whuber en los comentarios, hay una sutileza adicional de por qué es seguro ignorar el problema de . Esto se debe a que con las medidas solo estamos definiendo cosas hasta conjuntos de medidas por lo que en cualquier conjunto con podemos hacer que nuestro RND tome cualquier valor, digamos . Por lo tanto, no es que sea intrínsecamente seguro, sino que en cualquier lugar donde tendríamos es un conjunto de medidas wrt para que podamos definir nuestro RND como algo agradable allí sin afectar nada.0/00Aμ(A)=010/00/00μ
Como ejemplo, supongamos que para algunos . Entonces
entonces tenemos que es el RND (esto puede justificarse más formalmente por el teorema del cambio de medidas). Esto es bueno porque hemos recuperado exactamente el factor de escala.k⋅μ=νk>0
ν(A)=∫Adν=∫Akdμ
f(x)=k=dνdμ
Aquí hay un segundo ejemplo para enfatizar cómo cambiar los RND en conjuntos de medida no los afecta. Sea , es decir, es el PDF normal estándar más si la entrada es racional, y sea un RV con esta densidad. Esto significa
por lo que en realidad sigue siendo un RV gaussiano estándar. No ha afectado la distribución de ninguna manera para cambiar en porque es un conjunto de medida wrt0f(x)=φ(x)+1Q(x)1X
P(X∈A)=∫A(φ+1Q)dλ
=∫Aφdλ+λ(Q)=∫Aφdλ
XXQ0λ .
Como último ejemplo, suponga que e y deje que y sean sus respectivas distribuciones. Recuerde que un pmf es un RND con respecto a la medida de conteo , y dado que tiene la propiedad de que , resulta que
X∼Pois(η)Y∼Bin(n,p)PXPYccc(A)=0⟺A=∅
dPYdPX=dPY/dcdPX/dc=fYfX
para que podamos calcular
PY(A)=∫AdPY
=∫AdPYdPXdPX=∫AdPYdPXdPXdcdc
=∑y∈AdPYdPX(y)dPXdc(y)=∑y∈AfY(y)fX(y)fX(y)=∑y∈AfY(y).
Por lo tanto, debido a que para todo en el soporte de , podemos reescalar la integración con respecto a una distribución de Poisson en integración con respecto a una distribución binomial, aunque debido a que todo es discreto resulta trivial resultado.P(X=n)>0nY
Abordé tu pregunta más general, pero no toqué las divergencias de KL. Para mí, al menos, encuentro que la divergencia de KL es mucho más fácil de interpretar en términos de pruebas de hipótesis como la respuesta de @kjetil b halvorsen aquí . Si y existe una medida que domina a ambos, entonces se usa podemos recuperar la forma con densidades, así que para mí eso es más fácil.P≪QμdPdQ=dP/dμdQ/dμ:=p/q