¿Cuál es el valor máximo de la divergencia Kullback-Leibler (KL)

14

Voy a usar la divergencia de KL en mi código de Python y obtuve este tutorial .

En ese tutorial, implementar la divergencia de KL es bastante simple.

kl = (model * np.log(model/actual)).sum()

Según tengo entendido, la distribución de probabilidad de modely actualdebería ser <= 1.

Mi pregunta es, ¿cuál es el límite máximo / valor máximo posible de k ?. Necesito saber el valor máximo posible de la distancia kl en cuanto al límite máximo en mi código.

machine-learning distance kullback-leibler

— usuario46543
fuente

Esto es un duplicado de stats.stackexchange.com/q/333877/103153

— Lerner Zhang

16

O incluso con el mismo soporte, cuando una distribución tiene una cola mucho más gorda que la otra. Tome cuando luego y Existen otras distancias que permanecen acotadas como

K L (P | | Q) = \int p (x) \log (\frac{p (x)}{q (x)}) d x

$KL(P\vert\vert Q) = \int p(x)\log\left(\frac{p(x)}{q(x)}\right) \,\text{d}x$

p (x) = \overset{Cauchy density}{\overset{⏞}{\frac{1}{π} \frac{1}{1 + x^{2}}}} q (x) = \overset{Normal density}{\overset{⏞}{\frac{1}{\sqrt{2 π}} \exp {- x^{2} / 2}}}

$p(x)=\overbrace{\frac{1}{\pi}\,\frac{1}{1+x^2}}^\text{Cauchy density}\qquad q(x)=\overbrace{\frac{1}{\sqrt{2\pi}}\,\exp\{-x^2/2\}}^\text{Normal density}$

K L (P | | Q) = \int \frac{1}{π} \frac{1}{1 + x^{2}} \log p (x) d x + \int \frac{1}{π} \frac{1}{1 + x^{2}} [\log (2 π) / 2 + x^{2} / 2] d x

$KL(P\vert\vert Q) = \int \frac{1}{\pi}\,\frac{1}{1+x^2} \log p(x) \,\text{d}x + \int \frac{1}{\pi}\,\frac{1}{1+x^2} [\log(2\pi)/2+x^2/2]\,\text{d}x$

\int \frac{1}{π} \frac{1}{1 + x^{2}} x^{2} / 2 d x = + \infty

$\int \frac{1}{\pi}\,\frac{1}{1+x^2} x^2/2\,\text{d}x=+\infty$

la distancia , equivalente a la distancia de variación total, $L¹$
las distancias de Wasserstein
la distancia de Hellinger

— Xi'an
fuente

1

Muy buen comentario @ Xi'an

— Carlos Campos

Gracias @ Xi'an es esa media, incluso la suma de todos los contenedores para ambas distribuciones son = 1, la divergencia kl no tiene un límite máximo? ¿tiene alguna otra opción de función de distancia para dos distribuciones de probabilidad que haya definido límite máximo / límite estático?

— user46543

¿P es absolutamente continuo con respecto a Q en este caso?

— Sangwoong Yoon

En ese caso"? El KL no está definido como tal para distribuciones que no son absolutamente continuas entre sí, creo.

— Xi'an

12

Para distribuciones que no tienen el mismo soporte, la divergencia de KL no está limitada. Mira la definición:

K L (P | | Q) = \int_{- \infty}^{\infty} p (x) \ln (\frac{p (x)}{q (x)}) d x

$KL(P\vert\vert Q) = \int_{-\infty}^{\infty} p(x)\ln\left(\frac{p(x)}{q(x)}\right) dx$

si P y Q no tienen el mismo soporte, existe algún punto donde y , haciendo que KL vaya al infinito. Esto también es aplicable para distribuciones discretas, que es su caso. $x'$ $p(x') \neq 0$ $q(x') = 0$

Editar: Quizás una mejor opción para medir la divergencia entre las distribuciones de probabilidad sería la llamada distancia de Wasserstein, que es una métrica y tiene mejores propiedades que la divergencia KL. Se ha vuelto bastante popular debido a sus aplicaciones en aprendizaje profundo (ver redes WGAN)

— Carlos Campos
fuente

Gracias @ carlos-campos mi distribución, tanto la real como la modelo, tienen la misma condición, que es la suma de todos los contenedores = 1. ¿Eso significa que mi divergencia Kl todavía no tiene un límite máximo? Veré la distancia

— wassertein

Qué distancia de movimiento de Wasserstein o Tierra tiene un límite máximo explícito? porque lo necesito.

— user46543

@ user46543 La distancia de Wasserstein puede ser tan alta como

\infty

$\infty$

— Mark L. Stone

Hola @ MarkL.Stone, ¿entonces no hay una función de distancia para calcular la distancia entre dos distribuciones de probabilidad que tiene el límite máximo estático? por ejemplo, mientras dos distribuciones de probabilidad tienen una suma de 1 y el límite máximo de la distancia será 1. ¿Estoy en lo correcto?

— user46543

3

Para agregar a las excelentes respuestas de Carlos y Xi'an , también es interesante observar que una condición suficiente para que la divergencia KL sea finita es que ambas variables aleatorias tengan el mismo soporte compacto y que la densidad de referencia esté limitada . Este resultado también establece un límite implícito para el máximo de la divergencia KL (ver el teorema y la prueba a continuación).

Teorema: Si la densidad de y tienen el mismo soporte compacto y la densidad es limitado en que el apoyo (es decir, es tiene un finito límite superior), entonces . $p$ $q$ $\mathscr{X}$ $p$ $KL(P||Q) < \infty$

Prueba: dado que tiene soporte compacto esto significa que hay algún valor mínimo positivo: $q$ $\mathscr{X}$

\underline{q} \equiv inf_{x \in X} q (x) > 0.

$\underline{q} \equiv \inf_{x \in \mathscr{X}} q(x) > 0.$

Del mismo modo, dado que tiene soporte compacto esto significa que hay un valor de supremum positivo: $p$ $\mathscr{X}$

\bar{p} \equiv sup_{x \in X} p (x) > 0.

$\bar{p} \equiv \sup_{x \in \mathscr{X}} p(x) > 0.$

Además, dado que ambas son densidades en el mismo soporte, y la última está limitada, tenemos . Esto significa que: $0 < \underline{q} \leqslant \bar{p} < \infty$

sup_{x \in X} \ln (\frac{p (x)}{q (x)}) ⩽ \ln (\bar{p}) - \ln (\underline{q}) .

$\sup_{x \in \mathscr{X}} \ln \Bigg( \frac{p(x)}{q(x)} \Bigg) \leqslant \ln ( \bar{p}) - \ln(\underline{q}).$

Ahora, dejando que sea el último límite superior, claramente tenemos so ese: $\underline{L} \equiv \ln ( \bar{p}) - \ln(\underline{q})$ $0 \leqslant \underline{L} < \infty$

\begin{aligned} K L (P | | Q) & = \int_{X} \ln (\frac{p (x)}{q (x)}) p (x) d x \\ ⩽ sup_{x \in X} \ln (\frac{p (x)}{q (x)}) \int_{X} p (x) d x \\ ⩽ (\ln (\bar{p}) - \ln (\underline{q})) \int_{X} p (x) d x \\ = \underline{L} < \infty . \end{aligned}

$\begin{equation} \begin{aligned} KL(P||Q) &= \int \limits_{\mathscr{X}} \ln \Bigg( \frac{p(x)}{q(x)} \Bigg) p(x) dx \\[6pt] &\leqslant \sup_{x \in \mathscr{X}} \ln \Bigg( \frac{p(x)}{q(x)} \Bigg) \int \limits_{\mathscr{X}} p(x) dx \\[6pt] &\leqslant (\ln ( \bar{p}) - \ln(\underline{q})) \int \limits_{\mathscr{X}} p(x) dx \\[6pt] &= \underline{L} < \infty. \\[6pt] \end{aligned} \end{equation}$

Esto establece el límite superior requerido, lo que demuestra el teorema. $\blacksquare$

— Reinstalar a Mónica
fuente

El resultado es correcto pero la restricción es pesada: una densidad Beta no goza de un soporte compacto cuando .

B (α, β)

${\cal B}(\alpha,\beta)$

max (α, β) > 1

$\max(\alpha,\beta)>1$

— Xi'an

Eso es cierto: es solo una condición suficiente después de todo. ¡Condiciones más débiles son bienvenidas!

— Vuelve a instalar a Monica el