¿Cómo funciona el truco de reparameterization para VAE y por qué es importante?

57

¿Cómo funciona el truco de reparameterization para autoencoders variacionales (VAE)? ¿Existe una explicación intuitiva y fácil sin simplificar las matemáticas subyacentes? ¿Y por qué necesitamos el 'truco'?

— David Dao
fuente

55

Una parte de la respuesta es notar que todas las distribuciones normales son versiones escaladas y traducidas de Normal (1, 0). Para dibujar desde Normal (mu, sigma) puede dibujar desde Normal (1, 0), multiplicar por sigma (escala) y agregar mu (traducir).

— monje el

@monk: debería haber sido Normal (0,1) en lugar de (1,0) a la derecha o de lo contrario, multiplicar y desplazar se volvería completamente heno.

— Rika

@Breeze Ha! Si, por supuesto, gracias.

— monje

57

Después de leer las diapositivas del taller NIPS 2015 de Kingma , me di cuenta de que necesitamos el truco de reparametrización para propagar hacia atrás a través de un nodo aleatorio.

Intuitivamente, en su forma original, los VAE toman muestras de un nodo aleatorio que se aproxima mediante el modelo paramétrico del verdadero posterior. Backprop no puede fluir a través de un nodo aleatorio. $z$ $q(z \mid \phi, x)$

La introducción de un nuevo parámetro nos permite volver a parametrizar de una manera que permita que el backprop fluya a través de los nodos deterministas. $\epsilon$ $z$

— David Dao
fuente

3

¿Por qué es determinista ahora a la derecha?

z

$z$

— bringingdownthegauss

2

No lo es, pero no es una "fuente de aleatoriedad": este rol ha sido asumido por

.

ϵ

$\epsilon$

— quant_dev

Tenga en cuenta que este método se ha propuesto varias veces antes de 2014: blog.shakirm.com/2015/10/…

— quant_dev

2

¡Tan simple, tan intuitivo! ¡Gran respuesta!

— Serhiy

2

Lamentablemente no lo es. La forma original todavía puede ser retropropagable, sin embargo, con una mayor varianza. Los detalles se pueden encontrar en mi publicación .

— JP Zhang

56

Supongamos que tenemos una distribución normal que está parametrizada por , específicamente . Queremos resolver el siguiente problema $q$ $\theta$ $q_{\theta}(x) = N(\theta,1)$ Esto es por supuesto un problema bastante tonto y la óptima es obvia. Sin embargo, aquí solo queremos entender cómo el truco de reparameterización ayuda a calcular el gradiente de este objetivo .

{min}_{θ} {mi}_{q} [X^{2}]

$\text{min}_{\theta} \quad E_q[x^2]$

θ

$\theta$

E_{q} [x^{2}]

$E_q[x^2]$

Una forma de calcular es la siguiente $\nabla_{\theta} E_q[x^2]$

\nabla_{θ} {mi}_{q} [X^{2}] = \nabla_{θ} \int q_{θ} (X) X^{2} re X = \int X^{2} \nabla_{θ} q_{θ} (X) \frac{q_{θ} (X)}{q_{θ} (X)} re X = \int q_{θ} (X) \nabla_{θ} Iniciar sesión q_{θ} (X) X^{2} re X = {mi}_{q} [X^{2} \nabla_{θ} Iniciar sesión q_{θ} (X)]

$\nabla_{\theta} E_q[x^2] = \nabla_{\theta} \int q_{\theta}(x) x^2 dx = \int x^2 \nabla_{\theta} q_{\theta}(x) \frac{q_{\theta}(x)}{q_{\theta}(x)} dx = \int q_{\theta}(x) \nabla_{\theta} \log q_{\theta}(x) x^2 dx = E_q[x^2 \nabla_{\theta} \log q_{\theta}(x)]$

Para nuestro ejemplo donde , este método da $q_{\theta}(x) = N(\theta,1)$

\nabla_{θ} {mi}_{q} [X^{2}] = {mi}_{q} [X^{2} (X - θ)]

$\nabla_{\theta} E_q[x^2] = E_q[x^2 (x-\theta)]$

El truco de reparametrización es una forma de reescribir la expectativa para que la distribución con respecto a la cual tomamos el gradiente sea independiente del parámetro . Para lograr esto, necesitamos hacer que el elemento estocástico en independiente de . Por lo tanto, escribimos como $\theta$ $q$ $\theta$ $x$ Entonces, podemos escribir donde es la distribución de , es decir, . Ahora podemos escribir la derivada de siguiente manera

X = θ + ϵ, ϵ \sim norte (0 0, 1)

$x = \theta + \epsilon, \quad \epsilon \sim N(0,1)$

{mi}_{q} [X^{2}] = {mi}_{pags} [(θ + ϵ)^{2}]

$E_q[x^2] = E_p[(\theta+\epsilon)^2]$

p

$p$

ϵ

$\epsilon$

N (0, 1)

$N(0,1)$

E_{q} [x^{2}]

$E_q[x^2]$

\nabla_{θ} {mi}_{q} [X^{2}] = \nabla_{θ} {mi}_{pags} [(θ + ϵ)^{2}] = {mi}_{pags} [2 (θ + ϵ)]

$\nabla_{\theta} E_q[x^2] = \nabla_{\theta} E_p[(\theta+\epsilon)^2] = E_p[2(\theta+\epsilon)]$

Aquí hay un cuaderno de IPython que he escrito que analiza la varianza de estas dos formas de calcular gradientes. http://nbviewer.jupyter.org/github/gokererdogan/Notebooks/blob/master/Reparameterization%20Trick.ipynb

— goker
fuente

44

¿Cuál es el theta "obvio" para la primera ecuación?

— gwg

2

es 0. una forma de ver eso es notar que E [x ^ 2] = E [x] ^ 2 + Var (x), que es theta ^ 2 + 1 en este caso. Entonces theta = 0 minimiza este objetivo.

— Goker

Entonces, ¿depende completamente del problema? Para decir min_ \ theta E_q [| x | ^ (1/4)], ¿podría ser completamente diferente?

— Anne van Rossum

¿Qué depende del problema? La theta óptima? Si es así, sí, ciertamente depende del problema.

— goker

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ) q_{θ} (x)]

$\nabla_\theta E_q[x^2] = E_q[x^2 (x-\theta) q_\theta(x)]$

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ)]

$\nabla_\theta E_q[x^2] = E_q[x^2 (x-\theta)]$

17

En la respuesta de Goker se da un ejemplo razonable de las matemáticas del "truco de reparameterización", pero alguna motivación podría ser útil. (No tengo permisos para comentar esa respuesta; por lo tanto, aquí hay una respuesta por separado).

$G_\theta$

{sol}_{θ} = \nabla_{θ} {mi}_{X \sim q_{θ}} [...]

$G_\theta = \nabla_{\theta}E_{x\sim q_\theta}[\ldots]$

$E_{x\sim q_\theta}[G^{est}_\theta(x)]$

{sol}_{θ}^{mi s t} (X) = ... \frac{1}{q_{θ} (X)} \nabla_{θ} q_{θ} (X) = ... \nabla_{θ} Iniciar sesión (q_{θ} (X))

$G^{est}_\theta(x) = \ldots\frac{1}{q_\theta(x)}\nabla_{\theta}q_\theta(x) = \ldots\nabla_{\theta} \log(q_\theta(x))$

$x$ $q_\theta$ $G^{est}_\theta$ $G_\theta$ $\theta$

$G^{est}_\theta$ $G_\theta$

$G_\theta$ $x$ $x$ $q_\theta(x)$ $\frac{1}{q_\theta(x)}$ $x$ $G_\theta$ $q_\theta$ $G^{est}_\theta$ $x$ $q_\theta$ $\theta$ , que puede estar lejos de ser óptimo (por ejemplo, un valor inicial elegido arbitrariamente). Es un poco como la historia de la persona borracha que busca sus llaves cerca de la farola (porque allí es donde puede ver / probar) en lugar de cerca de donde las dejó caer.

$x$ $\epsilon$ $p$ $\theta$ $G_\theta$ $p$

{sol}_{θ} = \nabla_{θ} {mi}_{ϵ \sim pags} [J (θ, ϵ)] = {mi}_{ϵ \sim pags} [\nabla_{θ} J (θ, ϵ)]

$G_\theta = \nabla_\theta E_{\epsilon\sim p}[J(\theta,\epsilon)] = E_{\epsilon\sim p}[ \nabla_\theta J(\theta,\epsilon)]$

J (θ, ϵ)

$J(\theta,\epsilon)$

$\nabla_\theta J(\theta,\epsilon)$ $p$ $\epsilon$ $p$ $\theta$ $p$

$\nabla_\theta J(\theta,\epsilon)$ $G_\theta$ $G_\theta$ $\epsilon$ $p$ $p$ $\epsilon$ $J$

Espero que eso ayude.

— Seth Bruder
fuente

"El factor de 1 / qθ (x) está aumentando su estimación para dar cuenta de esto, pero si nunca ve un valor de x, esa escala no ayudará". ¿Puedes explicarme mas?

— czxttkl

q_{θ}

$q_\theta$

x

$x$

x

$x$

G_{θ}^{e s t} (x)

$G_{\theta}^{est}(x)$

1 / q_{θ}

$1/q_\theta$

10

Permítanme explicar primero, ¿por qué necesitamos el truco de reparametrización en VAE?

VAE tiene codificador y decodificador. Decodificador de muestras al azar de verdadero posterior Z ~ q (z∣ϕ, x) . Para implementar el codificador y el decodificador como una red neuronal, debe realizar una retropropagación mediante muestreo aleatorio y ese es el problema porque la retropropagación no puede fluir a través de un nodo aleatorio; Para superar este obstáculo, utilizamos el truco de reparameterización.

Ahora vamos a engañar. Dado que nuestro posterior está normalmente distribuido, podemos aproximarlo con otra distribución normal. Aproximamos Z con ε normalmente distribuido .

Pero, ¿cómo es esto relevante?

Ahora, en lugar de decir que Z se muestrea a partir de q (z∣ϕ, x) , podemos decir que Z es una función que toma el parámetro (ε, (µ, L)) y estos µ, L proviene de la red neuronal superior (codificador) . Por lo tanto, mientras que la retropropagación todo lo que necesitamos es derivadas parciales wrt µ, L y ε es irrelevante para tomar derivados.

— Sherlock
fuente

El mejor video para entender este concepto. Recomendaría ver un video completo para una mejor comprensión, pero si desea comprender solo el truco de reparametrización, mire desde 8 minutos. youtube.com/channel/UCNIkB2IeJ-6AmZv7bQ1oBYg

— Sherlock

9

Pensé que la explicación encontrada en el curso Stanford CS228 sobre modelos gráficos probabilísticos era muy buena. Se puede encontrar aquí: https://ermongroup.github.io/cs228-notes/extras/vae/

He resumido / copiado las partes importantes aquí por conveniencia / mi propia comprensión (aunque recomiendo encarecidamente que consulte el enlace original).

\nabla_{ϕ} {mi}_{z \sim q (z El | X)} [F (X, z)]

$\nabla_\phi \mathbb{E}_{z\sim q(z|x)}[f(x,z)]$

Si está familiarizado con los estimadores de la función de puntuación (creo que REINFORCE es solo un caso especial de esto), notará que ese es el problema que resuelven. Sin embargo, el estimador de la función de puntuación tiene una gran varianza, lo que genera dificultades para aprender modelos la mayor parte del tiempo.

$q_\phi (z|x)$

$\epsilon$ $p(\epsilon)$ $g_\phi(\epsilon, x)$ $q_\phi$

Como ejemplo, usemos una q muy simple de la que tomamos muestras.

z \sim q_{μ, σ} = norte (μ, σ)

$z \sim q_{\mu, \sigma} = \mathcal{N}(\mu, \sigma)$

q

$q$

z = {sol}_{μ, σ} (ϵ) = μ + ϵ \cdot σ

$z = g_{\mu, \sigma}(\epsilon) = \mu + \epsilon\cdot\sigma$

ϵ \sim N (0, 1)

$\epsilon \sim \mathcal{N}(0, 1)$

$p(\epsilon)$

\nabla_{ϕ} {mi}_{z \sim q (z El | X)} [F (X, z)] = {mi}_{ϵ \sim pags (ϵ)} [\nabla_{ϕ} F (X, sol (ϵ, X))]

$\nabla_\phi \mathbb{E}_{z\sim q(z|x)}[f(x,z)] = \mathbb{E}_{\epsilon \sim p(\epsilon)}[\nabla_\phi f(x,g(\epsilon, x))]$

Esto tiene una varianza menor, por razones imo, no triviales. Consulte la parte D del apéndice aquí para obtener una explicación: https://arxiv.org/pdf/1401.4082.pdf

— horace he
fuente

Hola, ¿sabes por qué en la implementación dividen el estándar por 2? (es decir, std = torch.exp (z_var / 2)) en la reparameterization?

— Rika

4

Tenemos nuestro modelo probablístico. Y quiere recuperar los parámetros del modelo. Reducimos nuestra tarea a la optimización del límite inferior variacional (VLB). Para hacer esto, deberíamos poder hacer dos cosas:

calcular VLB
obtener gradiente de VLB

Los autores sugieren usar el Estimador de Monte Carlo para ambos. Y, de hecho, presentan este truco para obtener un estimador de gradiente Monte Carlo más preciso de VLB.

Es solo una mejora del método numérico.

— Anton
fuente

2

El truco de reparameterization reduce dramáticamente la varianza del estimador MC para el gradiente. Entonces es una técnica de reducción de varianza :

\nabla_{ϕ} {mi}_{q (z^{(yo)} ∣ X^{(yo)}; ϕ)} [Iniciar sesión pags (X^{(yo)} ∣ z^{(yo)}, w)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right]$

\nabla_{ϕ} {mi}_{q (z^{(yo)} ∣ X^{(yo)}; ϕ)} [Iniciar sesión pags (X^{(yo)} ∣ z^{(yo)}, w)] = {mi}_{q (z^{(yo)} ∣ X^{(yo)}; ϕ)} [Iniciar sesión pags (X^{(yo)} ∣ z^{(yo)}, w) \nabla_{ϕ} Iniciar sesión q_{ϕ} (z)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right] = \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \nabla_\phi \log q_\phi(z)\right]$

p (x^{(i)} ∣ z^{(i)}, w)

$p\left( x^{(i)} \mid z^{(i)}, w \right)$

\log p (x^{(i)} ∣ z^{(i)}, w)

$\log p\left( x^{(i)} \mid z^{(i)}, w \right)$ es muy grande y el valor en sí mismo es negativo. Entonces tendríamos una gran varianza.

Con reparametrización $z^{(i)} = g(\epsilon^{(i)}, x^{(i)}, \phi)$

\nabla_{ϕ} {mi}_{q (z^{(yo)} ∣ X^{(yo)}; ϕ)} [Iniciar sesión pags (X^{(yo)} ∣ z^{(yo)}, w)] = {mi}_{pags (ϵ^{(yo)})} [\nabla_{ϕ} Iniciar sesión pags (X^{(yo)} ∣ sol (ϵ^{(yo)}, X^{(yo)}, ϕ), w)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right] = \mathbb E_{p(\epsilon^{(i)})} \left[ \nabla_\phi \log p\left( x^{(i)} \mid g(\epsilon^{(i)}, x^{(i)}, \phi), w \right) \right]$

$p(\epsilon^{(i)})$ $p(\epsilon^{(i)})$ $\phi$

$z^{(i)}$ $z^{(i)} = g(\epsilon^{(i)}, x^{(i)}, \phi)$

— Chris Elgoog
fuente