KL Pérdida con una unidad Gaussiana

10

He estado implementando un VAE y he notado dos implementaciones diferentes en línea de la divergencia KL gaussiana univariada simplificada. La divergencia original según aquí es Si suponemos que nuestro anterior es una unidad gaussiana, es decir,y, esto se simplifica a

K L_{l o s s} = \log (\frac{σ_{2}}{σ_{1}}) + \frac{σ_{1}^{2} + (μ_{1} - μ_{2})^{2}}{2 σ_{2}^{2}} - \frac{1}{2}

$KL_{loss}=\log(\frac{\sigma_2}{\sigma_1})+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2}$

μ_{2} = 0

$\mu_2=0$

σ_{2} = 1

$\sigma_2=1$

K L_{l o s s} = - \log (σ_{1}) + \frac{σ_{1}^{2} + μ_{1}^{2}}{2} - \frac{1}{2}

$KL_{loss}=-\log(\sigma_1)+\frac{\sigma_1^2+\mu_1^2}{2}-\frac{1}{2}$

Y aquí es donde descansa mi confusión. Aunque he encontrado algunos repositorios oscuros de github con la implementación anterior, lo que más comúnmente encuentro usado es:

K L_{l o s s} = - \frac{1}{2} (2 \log (σ_{1}) - σ_{1}^{2} - μ_{1}^{2} + 1)

$KL_{loss}=-\frac{1}{2}(2\log(\sigma_1)-\sigma_1^2-\mu_1^2+1)$

Por ejemplo, en eltutorialoficial deautoencoder Keras. Mi pregunta es entonces, ¿qué me estoy perdiendo entre estos dos? La principal diferencia es dejar caer el factor de 2 en el término logarítmico y no cuadrar la varianza. Analíticamente he usado este último con éxito, por lo que vale. ¡Gracias de antemano por cualquier ayuda!

= - \frac{1}{2} (\log (σ_{1}) - σ_{1} - μ_{1}^{2} + 1)

$=-\frac{1}{2}(\log(\sigma_1)-\sigma_1-\mu^2_1+1)$

— groovyDragon
fuente

7

$\sigma_1$ $\sigma_1^2$ $\log(\sigma_1) - \sigma_1 \rightarrow 2\log(\sigma_1) - \sigma_1^2$

Ambas formulaciones son equivalentes y el objetivo no cambia.

— F. Evlangeli
fuente

μ

$\mu$

σ

$\sigma$

σ

$\sigma$

μ

$\mu$

σ

$\sigma$

0

$\Sigma$ $\sigma^2$

Aquí puede encontrar la derivación de una divergencia KL para distribuciones normales multivariadas: derivación de la pérdida de divergencia KL para VAE

— Dmitry Grebenyuk
fuente