¿Cómo se propagan los gradientes en una red neuronal recurrente desenrollada?

8

Estoy tratando de entender cómo se pueden usar los rnn para predecir secuencias trabajando con un ejemplo simple. Aquí está mi red simple, que consta de una entrada, una neurona oculta y una salida:

ingrese la descripción de la imagen aquí

La neurona oculta es la función sigmoidea, y se considera que la salida es una salida lineal simple. Entonces, creo que la red funciona de la siguiente manera: si la unidad oculta comienza en estado s, y estamos procesando un punto de datos que es una secuencia de longitud $3$ , $(x_1, x_2, x_3)$ , entonces:

En el momento 1, el valor predicho, $p^1$ , es

p^{1} = u \times σ (w s + v x^{1})

$p^1 = u \times \sigma(ws+vx^1)$

En el momento 2, tenemos

p^{2} = u \times σ (w \times σ (w s + v x^{1}) + v x^{2})

$p^2 = u \times \sigma\left(w \times \sigma(ws+vx^1)+vx^2\right)$

En el momento 3, tenemos

p^{3} = u \times σ (w \times σ (w \times σ (w s + v x^{1}) + v x^{2}) + v x^{3})

$p^3 = u \times \sigma\left(w \times \sigma(w \times\sigma(ws+vx^1)+vx^2)+vx^3\right)$

¿Hasta aquí todo bien?

El rnn "desenrollado" se ve así:

ingrese la descripción de la imagen aquí

Si usamos un término de suma de error cuadrado para la función objetivo, ¿cómo se define? En toda la secuencia? En cuyo caso tendríamos algo como $E=(p^1-x^1)^2+(p^2-x^2)^2+(p^3-x^3)^2$ ?

¿Se actualizan los pesos solo una vez que se examinó la secuencia completa (en este caso, la secuencia de 3 puntos)?

En cuanto al gradiente con respecto a los pesos, necesitamos calcular $dE/dw, dE/dv, dE/du$ , Intentaré hacerlo simplemente examinando las 3 ecuaciones para $p^i$ arriba, si todo lo demás parece correcto. Además de hacerlo de esa manera, esto no me parece una propagación inversa, porque los mismos parámetros aparecen en diferentes capas de la red. ¿Cómo nos ajustamos para eso?

Si alguien puede ayudarme a guiarme a través de este ejemplo de juguete, estaría muy agradecido.

— Fequish
fuente

Creo que hay algo mal con la función de error, probablemente obtengas

p^{1}

$p^1$ como término del segundo elemento y debes compararlo probablemente con

x^{2}

$x^2$ , en caso perfecto deben ser iguales. En su función de error, simplemente compara la entrada y la salida de la red.

— itdxer

Pensé que ese podría ser el caso. Pero entonces, ¿cómo se define el error para el último elemento predicho,

p^{3}

$p^3$ ?

— Fequish

1

Creo que necesitas valores objetivo. Entonces para la secuencia $(x_1, x_2, x_3)$ , necesitarías objetivos correspondientes $(t_1, t_2, t_3)$ . Como parece que desea predecir el próximo término de la secuencia de entrada original, necesitaría:

t_{1} = x_{2}, t_{2} = x_{3}, t_{3} = x_{4}

$t_1 = x_2,\ t_2 = x_3,\ t_3 = x_4$

Necesitarías definir $x_4$ , así que si tuviera una secuencia de entrada de longitud $N$ para entrenar al RNN, solo podrás usar el primero $N-1$ términos como valores de entrada y el último $N-1$ términos como valores objetivo.

Si usamos un término de suma de error cuadrado para la función objetivo, ¿cómo se define?

Hasta donde sé, tienes razón: el error es la suma de toda la secuencia. Esto es porque los pesos $u$ , $v$ y $w$ son los mismos en el RNN desplegado.

Entonces,

E = \sum_{t} E^{t} = \sum_{t} (t^{t} - p^{t})^{2}

$E = \sum\limits_t E^t = \sum\limits_t (t^t - p^t)^2$

¿Se actualizan los pesos solo una vez que se examinó la secuencia completa (en este caso, la secuencia de 3 puntos)?

Sí, si utilizo la propagación inversa a través del tiempo, creo que sí.

En cuanto a los diferenciales, no querrá expandir toda la expresión para $E$ y diferenciarlo cuando se trata de RNN más grandes. Entonces, alguna notación puede hacerlo más ordenado:

Dejar $z^t$ denotar la entrada a la neurona oculta en el momento $t$ (es decir $z^1 = ws + vx^1$ )
Dejar $y^t$ denotar la salida de la neurona oculta en el momento $t$ (es decir $y^1 = \sigma(ws + vx^1))$
Dejar $y^0 = s$
Dejar $\delta^t = \frac{\partial E}{\partial z^t}$

Entonces, los derivados son:

\begin{aligned} \frac{\partial E}{\partial u} & = y^{t} \\ \frac{\partial E}{\partial v} & = \sum_{t} δ^{t} x^{t} \\ \frac{\partial E}{\partial w} & = \sum_{t} δ^{t} y^{t - 1} \end{aligned}

$\begin{align}\frac{\partial E}{\partial u} &= y^t \\\\ \frac{\partial E}{\partial v} &= \sum\limits_t\delta^tx^t \\\\ \frac{\partial E}{\partial w} &= \sum\limits_t\delta^ty^{t-1} \end{align}$

Dónde $t \in [1,\ T]$ para una secuencia de longitud $T$ y:

δ^{t} = σ^{'} (z^{t}) (u + δ^{t + 1} w)

$\begin{equation} \delta^t = \sigma'(z^t)(u + \delta^{t+1}w) \end{equation}$

Esta relación recurrente proviene de darse cuenta de que el $t^{th}$ la actividad oculta no solo afecta el error en $t^{th}$ salida, $E^t$ , pero también afecta el resto del error más abajo en el RNN, $E - E^t$ :

\begin{aligned} \frac{\partial E}{\partial z^{t}} & = \frac{\partial E^{t}}{\partial y^{t}} \frac{\partial y^{t}}{\partial z^{t}} + \frac{\partial (E - E^{t})}{\partial z^{t + 1}} \frac{\partial z^{t + 1}}{\partial y^{t}} \frac{\partial y^{t}}{\partial z^{t}} \\ \frac{\partial E}{\partial z^{t}} & = \frac{\partial y^{t}}{\partial z^{t}} (\frac{\partial E^{t}}{\partial y^{t}} + \frac{\partial (E - E^{t})}{\partial z^{t + 1}} \frac{\partial z^{t + 1}}{\partial y^{t}}) \\ \frac{\partial E}{\partial z^{t}} & = σ^{'} (z^{t}) (u + \frac{\partial (E - E^{t})}{\partial z^{t + 1}} w) \\ δ^{t} = \frac{\partial E}{\partial z^{t}} & = σ^{'} (z^{t}) (u + δ^{t + 1} w) \end{aligned}

$\begin{align} \frac{\partial E}{\partial z^t} &= \frac{\partial E^t}{\partial y^t}\frac{\partial y^t}{\partial z^t} + \frac{\partial (E - E^t)}{\partial z^{t+1}}\frac{\partial z^{t+1}}{\partial y^t}\frac{\partial y^t}{\partial z^t} \\\\ \frac{\partial E}{\partial z^t} &= \frac{\partial y^t}{\partial z^t}\left(\frac{\partial E^t}{\partial y^t} + \frac{\partial (E - E^t)}{\partial z^{t+1}}\frac{\partial z^{t+1}}{\partial y^t}\right) \\\\ \frac{\partial E}{\partial z^t} &= \sigma'(z^t)\left(u + \frac{\partial (E - E^t)}{\partial z^{t+1}}w\right) \\\\ \delta^t = \frac{\partial E}{\partial z^t} &= \sigma'(z^t)(u + \delta^{t+1}w) \\\\ \end{align}$

Además de hacerlo de esta manera, esto no me parece una propagación inversa, porque los mismos parámetros aparecen en diferentes capas de la red. ¿Cómo nos ajustamos para eso?

Este método se llama propagación inversa a través del tiempo (BPTT), y es similar a la propagación inversa en el sentido de que utiliza la aplicación repetida de la regla de la cadena.

Un ejemplo trabajado más detallado pero complicado para un RNN se puede encontrar en el Capítulo 3.2 de 'Etiquetado de secuencias supervisadas con redes neuronales recurrentes' por Alex Graves - ¡lectura realmente interesante!

— dok
fuente

0

El error que describió anteriormente (después de la modificación que escribí en el comentario debajo de la pregunta) puede usarlo solo como un error de predicción total, pero no puede usarlo en el proceso de aprendizaje. En cada iteración, coloca un valor de entrada en la red y obtiene una salida. Cuando obtenga resultados, debe verificar el resultado de su red y propagar el error a todos los pesos. Después de la actualización, colocará el siguiente valor en secuencia y hará una predicción para este valor, de lo que también propagará el error, etc.

— itdxer
fuente