Preliminares
Escribir
Ip(ϵ)=∫∞0p(x)log(p(x)(1+ϵ)p(x(1+ϵ)))dx.
Los logaritmos y la relación entre y sugieren expresar tanto como su argumento como exponenciales. Para ese fin, definap ( x ( 1 + ϵ ) ) pp(x)p(x(1+ϵ))p
q(y)=log(p(ey))
para todo real para el que se define el lado derecho e igual a donde . Observe que el cambio de variables implica y (tomando como la densidad de una distribución) que la Ley de probabilidad total puede expresarse como- ∞ p ( e y ) = 0 x = e y d x = e y d y py−∞p(ey)=0x=eydx=eydyp
1=∫∞0p(x)dx=∫Req(y)+ydy.(1)
Supongamos que cuando . y → ± ∞eq(y)+y→0y→±∞ Esto excluye las distribuciones de probabilidad con infinitos picos de densidad cerca de o . En particular, si las colas de son eventualmente monótonas, implica esta suposición, mostrando que no es severa.0∞p(1)p0∞p(1)
Para facilitar el trabajo con los logaritmos, observe también que
1+ϵ=eϵ+O(ϵ2).
Debido a que los siguientes cálculos se realizarán hasta múltiplos de , definaϵ2
δ=log(1+ϵ).
También podríamos reemplazar por , con correspondiente a y positivo correspondiente a positivo .e δ δ = 0 ϵ = 0 δ ϵ1+ϵeδδ=0ϵ=0δϵ
Análisis
Una forma obvia en que la desigualdad puede fallar sería que la integral divergiera para alguna . Esto sucedería si, por ejemplo, hubiera cualquier intervalo apropiado de números positivos, sin importar cuán pequeño, en el que fuera idénticamente cero pero no fuera cero en el intervalo . Eso haría que el integrando sea infinito con probabilidad positiva.ϵ∈(0,1][u,v]pp[u-ϵ,v-ϵ]Ip(ϵ)ϵ∈(0,1][u,v]pp[u−ϵ,v−ϵ]
Debido a que la pregunta no es específica con respecto a la naturaleza de , podríamos atascarnos en problemas técnicos sobre cuán suave podría ser . Evitemos tales problemas, con la esperanza de obtener una idea, al suponer que todas partes tiene tantos derivados como nos gustaría usar. (Dos serán suficientes si es continuo.) Como eso garantiza que permanece acotado en cualquier conjunto acotado, implica que nunca es cero cuando .p q q ′ ′ q p ( x ) x > 0ppqq′′qp(x)x>0
Tenga en cuenta que la pregunta realmente se refiere al comportamiento de cuando aproxima a cero desde arriba. Como esta integral es una función continua de en el intervalo , alcanza un máximo de cuando está restringido a cualquier intervalo positivo , lo que nos permite elegir , porque obviamenteϵϵ(0,1] M p (a)ϵ[a,1]c= M p (a) / a 2 c ϵ 2 = M p (a) ( ϵIp(ϵ)ϵϵ(0,1]Mp(a)ϵ[a,1]c=Mp(a)/a2
cϵ2=Mp(a)(ϵa)2≥Mp(a)≥Ip(ϵ)
hace que la desigualdad funcione. Es por eso que solo debemos preocuparnos por el módulo de cálculo .ϵ2
Solución
Usando los cambios de la variable de a , de a , y a , calculemos hasta el segundo orden en (o ) con la esperanza de lograr Una simplificación. Para ese fin definirxypqϵδIp(ϵ)ϵδ
R(y,δ)δ2=q(y+δ)−q(y)−δq′(y)
para ser el resto de orden en la expansión de Taylor de alrededor de .2qy
Ip(ϵ)=∫Req(y)+y(q(y)−q(y+δ)−δ)dy=−∫Req(y)+y(δ+δq′(y)+R(y,δ)δ2)dy=−δ∫Req(y)+y(1+q′(y))dy−δ2∫Req(y)+yR(y,δ)dy.
Cambiar las variables a en la integral de la izquierda muestra que debe desaparecer, como se observa en el supuesto siguiente . Cambiar las variables de nuevo a en la integral de la derecha daq(y)+y(1)x=ey
Ip(ϵ)=−δ2∫Rp(x)R(log(x),δ)dy=−δ2Ep(R(log(x),δ)).
La desigualdad se mantiene (bajo nuestros diversos supuestos técnicos) si y solo si el coeficiente de en el lado derecho es finito.δ2
Interpretación
Este es un buen punto para detener, porque parece descubrir el problema esencial: está limitado por una función cuadrática de precisamente cuando el error cuadrático en la expansión de Taylor de no explotar (en relación con la distribución) a medida que acerca a .Ip(ϵ)ϵqy±∞
Veamos algunos de los casos mencionados en la pregunta: las distribuciones exponencial y gamma. (El exponencial es un caso especial de la gamma). Nunca tenemos que preocuparnos por los parámetros de escala, porque simplemente cambian las unidades de medida. Solo importan los parámetros no escalados
Aquí, porque para , La expansión de Taylor alrededor de una arbitraria esEl teorema de Taylor con el resto implica que está dominado por para suficientemente pequeño . Como la expectativa de es finita, la desigualdad se mantiene para las distribuciones Gamma.p(x)=xke−xk>−1
q(y)=−ey+ky−logΓ(k+1).
yR(log(x),δ)ey+δ/2<xδxConstant+(k−ey)δ−ey2δ2+⋯.
R(log(x),δ)ey+δ/2<xδx
Cálculos similares implican la desigualdad para las distribuciones de Weibull, las distribuciones semi-normales, las distribuciones logarítmicas, etc. De hecho, para obtener contraejemplos, tendríamos que violar al menos una suposición, lo que nos obliga a mirar las distribuciones donde desaparece en algún intervalo, o es no continuamente dos veces diferenciable, o tiene infinitos modos. Estas son pruebas fáciles de aplicar a cualquier familia de distribuciones comúnmente utilizadas en el modelado estadístico.p