Distribución especial de probabilidad

Si es una distribución de probabilidad con valores distintos de cero en , para qué tipo (s) de existe una constante tal que para todos ? $p(x)$ $[0,+\infty)$ $p(x)$ $c\gt 0$ $\int_0^{\infty}p(x)\log{\frac{ p(x)}{(1+\epsilon)p({x}(1+\epsilon))}}dx \leq c \epsilon^2$ $0\lt\epsilon\lt 1$

La desigualdad anterior es en realidad una divergencia Kullback-Leibler entre la distribución y una versión comprimida de ella . He descubierto que esta desigualdad es válida para las distribuciones exponencial, gamma y Weibull y me interesa saber si eso funciona para una clase más grande de distribuciones de probabilidad. $p(x)$ ${(1+\epsilon)}p({x}{(1+\epsilon)})$

¿Alguna idea de lo que significa esa desigualdad?

— Sus20200
fuente

Como es positivo, se comprimiría (en la dirección x) en lugar de estirarse.

ϵ

$\epsilon$

— Glen_b -Reinstate Monica

Esta pregunta es ambigua: ¿cuáles son sus cuantificadores? ¿Desea que esta desigualdad se mantenga para todos , al menos uno u otra cosa? ¿Se da a priori o quiere decir que debería existir al menos uno de esos valores de ? Y dado que usted menciona clases de distribuciones de probabilidad, por " " se refiere a una distribución específica o quizás se refiere a una familia paramétrica de ellas?

ϵ

$\epsilon$

ϵ

$\epsilon$

c

$c$

c

$c$

p (x)

$p(x)$

— whuber

@whuber Gracias por tus comentarios. Hice una corrección a mi declaración del problema para aclarar los problemas mencionados. Quiero decir, ¿para qué cumple la desigualdad anterior? La respuesta podría ser introducir una familia paramétrica de distribuciones o proponer una ecuación diferencial para que sea suficiente y proporcione la desigualdad deseada.

p (x)

$p(x)$

p (x)

$p(x)$

— Sus20200

¿No funcionaría esta desigualdad para cualquier p (x) que sea continua y con soporte infinito? Está calculando la divergencia KL dentro de una familia paramétrica ( . Si el KL es diferenciable en 0, entonces su derivada es 0. Tomando como el máximo de la curvatura de KL (para ), tenemos el límite. Con trabajo adicional, podría ser posible vincular C de las propiedades de p

ϵ \to p (x (1 + ϵ))

$\epsilon \rightarrow p(x(1+\epsilon))$

C

$C$

ϵ \in [0, 1]

$\epsilon \in [0,1]$

— Guillaume Dehaene

Puede ser infinito siempre que . La expansión de primer orden del KL es

L = lim_{x \to 0} p (x) x = 0

$L = \lim_{x \rightarrow 0} p(x)x = 0$

L ϵ + O (ϵ^{2})

$L \epsilon + O(\epsilon^2)$

— Arthur B.

Preliminares

Escribir

I_{p} (ϵ) = \int_{0}^{\infty} p (x) \log (\frac{p (x)}{(1 + ϵ) p (x (1 + ϵ))}) d x .

$\mathcal{I}_p(\epsilon) = \int_0^\infty p(x) \log\left(\frac{p(x)}{(1+\epsilon)p(x(1+\epsilon))}\right)\, dx.$

Los logaritmos y la relación entre y sugieren expresar tanto como su argumento como exponenciales. Para ese fin, defina $p(x)$ $p(x(1+\epsilon))$ $p$

q (y) = \log (p (e^{y}))

$q(y) = \log(p(e^y))$

para todo real para el que se define el lado derecho e igual a donde . Observe que el cambio de variables implica y (tomando como la densidad de una distribución) que la Ley de probabilidad total puede expresarse como $y$ $-\infty$ $p(e^y)=0$ $x=e^y$ $dx=e^y dy$ $p$

\begin{matrix} (1) & 1 = \int_{0}^{\infty} p (x) d x = \int_{R} e^{q (y) + y} d y . \end{matrix}

$1 = \int_0^\infty p(x)dx = \int_\mathbb{R} e^{q(y)+y} dy.\tag{1}$

Supongamos que cuando . $e^{q(y)+y}\to 0$ $y\to\pm\infty$ Esto excluye las distribuciones de probabilidad con infinitos picos de densidad cerca de o . En particular, si las colas de son eventualmente monótonas, implica esta suposición, mostrando que no es severa. $p$ $0$ $\infty$ $p$ $(1)$

Para facilitar el trabajo con los logaritmos, observe también que

1 + ϵ = e^{ϵ} + O (ϵ^{2}) .

$1+\epsilon = e^\epsilon + O(\epsilon^2).$

Debido a que los siguientes cálculos se realizarán hasta múltiplos de , defina $\epsilon^2$

δ = \log (1 + ϵ) .

$\delta = \log(1+\epsilon).$

También podríamos reemplazar por , con correspondiente a y positivo correspondiente a positivo . $1+\epsilon$ $e^\delta$ $\delta=0$ $\epsilon=0$ $\delta$ $\epsilon$

Análisis

Una forma obvia en que la desigualdad puede fallar sería que la integral divergiera para alguna . Esto sucedería si, por ejemplo, hubiera cualquier intervalo apropiado de números positivos, sin importar cuán pequeño, en el que fuera idénticamente cero pero no fuera cero en el intervalo . Eso haría que el integrando sea infinito con probabilidad positiva. $\mathcal{I}_p(\epsilon)$ $\epsilon \in (0, 1]$ $[u, v]$ $p$ $p$ $[u-\epsilon, v-\epsilon]$

Debido a que la pregunta no es específica con respecto a la naturaleza de , podríamos atascarnos en problemas técnicos sobre cuán suave podría ser . Evitemos tales problemas, con la esperanza de obtener una idea, al suponer que todas partes tiene tantos derivados como nos gustaría usar. (Dos serán suficientes si es continuo.) Como eso garantiza que permanece acotado en cualquier conjunto acotado, implica que nunca es cero cuando . $p$ $p$ $q$ $q^{\prime\prime}$ $q$ $p(x)$ $x \gt 0$

Tenga en cuenta que la pregunta realmente se refiere al comportamiento de cuando aproxima a cero desde arriba. Como esta integral es una función continua de en el intervalo , alcanza un máximo de cuando está restringido a cualquier intervalo positivo , lo que nos permite elegir , porque obviamente $\mathcal{I}_p(\epsilon)$ $\epsilon$ $\epsilon$ $(0,1]$ $M_p(a)$ $\epsilon$ $[a,1]$ $c = M_p(a)/a^2$

c ϵ^{2} = M_{p} (a) {(\frac{ϵ}{a})}^{2} \geq M_{p} (a) \geq I_{p} (ϵ)

$c\epsilon^2 = M_p(a) \left(\frac{\epsilon}{a}\right)^2 \ge M_p(a) \ge \mathcal{I}_p(\epsilon)$

hace que la desigualdad funcione. Es por eso que solo debemos preocuparnos por el módulo de cálculo . $\epsilon^2$

Solución

Usando los cambios de la variable de a , de a , y a , calculemos hasta el segundo orden en (o ) con la esperanza de lograr Una simplificación. Para ese fin definir $x$ $y$ $p$ $q$ $\epsilon$ $\delta$ $\mathcal{I}_p(\epsilon)$ $\epsilon$ $\delta$

R (y, δ) δ^{2} = q (y + δ) - q (y) - δ q^{'} (y)

$\mathcal{R}(y, \delta) \delta^2 = q(y+\delta) - q(y) - \delta q^\prime(y)$

para ser el resto de orden en la expansión de Taylor de alrededor de . $2$ $q$ $y$

\begin{aligned} I_{p} (ϵ) & = \int_{R} e^{q (y) + y} (q (y) - q (y + δ) - δ) d y \\ = - \int_{R} e^{q (y) + y} (δ + δ q^{'} (y) + R (y, δ) δ^{2}) d y \\ = - δ \int_{R} e^{q (y) + y} (1 + q^{'} (y)) d y - δ^{2} \int_{R} e^{q (y) + y} R (y, δ) d y . \end{aligned}

$\eqalign{ \mathcal{I}_p(\epsilon) &= \int_\mathbb{R}e^{q(y) + y} \left(q(y) - q(y+\delta) - \delta\right)\, dy \\ &=-\int_\mathbb{R}e^{q(y) + y} \left(\delta + \delta q^\prime(y) + \mathcal{R}(y, \delta) \delta^2 \right)\, dy \\ &= -\delta\int_\mathbb{R}e^{q(y) + y} \left(1+q^\prime(y)\right)\, dy -\delta^2\int_\mathbb{R}e^{q(y) + y} \mathcal{R}(y, \delta)\, dy. }$

Cambiar las variables a en la integral de la izquierda muestra que debe desaparecer, como se observa en el supuesto siguiente . Cambiar las variables de nuevo a en la integral de la derecha da $q(y)+y$ $(1)$ $x=e^y$

I_{p} (ϵ) = - δ^{2} \int_{R} p (x) R (\log (x), δ) d y = - δ^{2} E_{p} (R (\log (x), δ)) .

$\mathcal{I}_p(\epsilon) = - \delta^2 \int_\mathbb{R} p(x) \mathcal{R}(\log(x), \delta)\, dy = -\delta^2 \mathbb{E}_p\left(\mathcal{R}(\log(x), \delta)\right).$

La desigualdad se mantiene (bajo nuestros diversos supuestos técnicos) si y solo si el coeficiente de en el lado derecho es finito. $\delta^2$

Interpretación

Este es un buen punto para detener, porque parece descubrir el problema esencial: está limitado por una función cuadrática de precisamente cuando el error cuadrático en la expansión de Taylor de no explotar (en relación con la distribución) a medida que acerca a . $\mathcal{I}_p(\epsilon)$ $\epsilon$ $q$ $y$ $\pm\infty$

Veamos algunos de los casos mencionados en la pregunta: las distribuciones exponencial y gamma. (El exponencial es un caso especial de la gamma). Nunca tenemos que preocuparnos por los parámetros de escala, porque simplemente cambian las unidades de medida. Solo importan los parámetros no escalados

Aquí, porque para , La expansión de Taylor alrededor de una arbitraria esEl teorema de Taylor con el resto implica que está dominado por para suficientemente pequeño . Como la expectativa de es finita, la desigualdad se mantiene para las distribuciones Gamma. $p(x) = x^k e^{-x}$ $k \gt -1$

q (y) = - e^{y} + k y - \log Γ (k + 1) .

$q(y) = -e^y + k y - \log\Gamma(k+1).$

y

$y$

Constant + (k - e^{y}) δ - \frac{e^{y}}{2} δ^{2} + \dots .

$\text{Constant} + (k-e^y)\delta - \frac{e^y}{2}\delta^2 + \cdots.$

R (\log (x), δ)

$\mathcal{R}(\log(x),\delta)$

e^{y + δ} / 2 < x

$e^{y+\delta}/2 \lt x$

δ

$\delta$

x

$x$

Cálculos similares implican la desigualdad para las distribuciones de Weibull, las distribuciones semi-normales, las distribuciones logarítmicas, etc. De hecho, para obtener contraejemplos, tendríamos que violar al menos una suposición, lo que nos obliga a mirar las distribuciones donde desaparece en algún intervalo, o es no continuamente dos veces diferenciable, o tiene infinitos modos. Estas son pruebas fáciles de aplicar a cualquier familia de distribuciones comúnmente utilizadas en el modelado estadístico. $p$

— whuber
fuente