Olvídese de la capa en una red neuronal recurrente (RNN) -

Estoy tratando de averiguar las dimensiones de cada variable en un RNN en la capa de olvido, sin embargo, no estoy seguro de si estoy en el camino correcto. La siguiente imagen y ecuación es de la publicación del blog de Colah "Comprender las redes LSTM" :

dónde:

es entrada de tamaño vector $x_t$ $m*1$
se oculta estado de tamaño vector $h_{t-1}$ $n*1$
es una concatenación (por ejemplo, si , entonces ) $[x_t, h_{t-1}]$ $x_t=[1, 2, 3], h_{t-1}=[4, 5, 6]$ $[x_t, h_{t-1}]=[1, 2, 3, 4, 5, 6]$
es pesos de tamaño de la matriz, donde es el número de estados celulares (si , y en el ejemplo anterior, y si tenemos 3 estados celulares, entonces matriz) $w_f$ $k*(m+n)$ $k$ $m=3$ $n=3$ $w_f=3*3$
es el sesgo de tamaño vector, donde es el número de estados celulares (ya que como el ejemplo anterior, entonces es un vector). $b_f$ $k*1$ $k$ $k=3$ $b_f$ $3*1$

Si establecemos como: $w_f$

[\begin{matrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 \\ 3 & 4 & 5 & 6 & 7 & 8 \end{matrix}]

$\begin{bmatrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 \\ 3 & 4 & 5 & 6 & 7 & 8 \\ \end{bmatrix}$

Y ser: $b_f$ $[1, 2, 3]$

Entonces $W_f . [h_{t-1}, x_t] =$

[\begin{matrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 \\ 3 & 4 & 5 & 6 & 7 & 8 \end{matrix}] . [\begin{matrix} 1 \\ 2 \\ 3 \\ 4 \\ 5 \\ 6 \end{matrix}] = [\begin{matrix} 91 & 175 & 133 \end{matrix}]

$\begin{bmatrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 \\ 3 & 4 & 5 & 6 & 7 & 8 \\ \end{bmatrix} . \begin{bmatrix} 1 \\ 2 \\ 3 \\ 4 \\ 5 \\ 6 \\ \end{bmatrix} =\begin{bmatrix} 91 & 175 & 133\end{bmatrix}$

Entonces podemos agregar el sesgo, $W_f . [h_{t-1}, x_t] + b_f=$

[\begin{matrix} 91 & 175 & 133 \end{matrix}] + [\begin{matrix} 1 & 2 & 3 \end{matrix}] = [\begin{matrix} 92 & 177 & 136 \end{matrix}]

$\begin{bmatrix} 91 & 175 & 133\end{bmatrix} + \begin{bmatrix} 1 & 2 & 3\end{bmatrix}=\begin{bmatrix} 92 & 177 & 136\end{bmatrix}$

$\frac{1}{1+e^{-x}}$ $x=\begin{bmatrix} 92 & 177 & 136\end{bmatrix}$

[\begin{matrix} 1 & 1 & 1 \end{matrix}]

$\begin{bmatrix} 1 & 1 & 1\end{bmatrix}$

$C_{t-1}$ $k=3$

¿Es correcta la suposición anterior?

¿Esto también significa que el número de estado de la celda y el estado oculto es el mismo?

neural-network rnn

— usuario1157751
fuente

Gran pregunta!

tl; dr: El estado de la celda y el estado oculto son dos cosas diferentes, pero el estado oculto depende del estado de la celda y, de hecho, tienen el mismo tamaño.

Explicación más larga

La diferencia entre los dos se puede ver en el siguiente diagrama (parte del mismo blog):

El estado de la celda es la línea en negrita que viaja de oeste a este a través de la parte superior. Todo el bloque verde se llama 'celda'.

El estado oculto del paso de tiempo anterior se trata como parte de la entrada en el paso de tiempo actual.

Sin embargo, es un poco más difícil ver la dependencia entre los dos sin hacer un recorrido completo. Lo haré aquí, para proporcionar otra perspectiva, pero fuertemente influenciada por el blog. Mi notación será la misma y utilizaré imágenes del blog en mi explicación.

Me gusta pensar en el orden de las operaciones un poco diferente de la forma en que se presentaron en el blog. Personalmente, como comenzar desde la puerta de entrada. Presentaré ese punto de vista a continuación, pero tenga en cuenta que el blog puede ser la mejor manera de configurar un LSTM computacionalmente y esta explicación es puramente conceptual.

Esto es lo que está sucediendo:

La puerta de entrada

$t$ $x_t$ $h_{t-1}$

$x_t = [1, 2, 3]$ $h_t = [4, 5, 6]$

$x_t$ $h_{t-1}$ $[1, 2, 3, 4, 5, 6]$

$W_i$ $W_i \cdot [x_t, h_{t-1}] + b_i$ $W_i$ $b_i$

Supongamos que estamos pasando de una entrada de seis dimensiones (la longitud del vector de entrada concatenado) a una decisión tridimensional sobre qué estados actualizar. Eso significa que necesitamos una matriz de peso de 3x6 y un vector de sesgo de 3x1. Vamos a darles algunos valores:

$W_i = \begin{bmatrix} 1 & 1 & 1 & 1 & 1 & 1 \\ 2 & 2 & 2 & 2 & 2 & 2 \\ 3 & 3 & 3 & 3 & 3 & 3\end{bmatrix}$

$b_i = \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}$

El cálculo sería:

$\begin{bmatrix} 1 & 1 & 1 & 1 & 1 & 1 \\ 2 & 2 & 2 & 2 & 2 & 2 \\ 3 & 3 & 3 & 3 & 3 & 3\end{bmatrix} \cdot \begin{bmatrix} 1 \\ 2 \\ 3 \\ 4 \\5 \\6 \end{bmatrix} + \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} = \begin{bmatrix} 22 \\ 42 \\ 62 \end{bmatrix}$

$i_t = \sigma (W_i \cdot [x_t, h_{t-1}] + b_i)$

$\sigma(x) = \frac{1}{1 + exp(-x)}$ $x$

$\sigma(\begin{bmatrix} 22 \\ 42 \\ 62 \end{bmatrix}) = [\frac{1}{1 + exp(-22)}, \frac{1}{1 + exp(-42)}, \frac{1}{1 + exp(-62)}] = [1, 1, 1]$

En inglés, eso significa que vamos a actualizar todos nuestros estados.

La puerta de entrada tiene una segunda parte:

$\tilde{C_t} = tanh(W_C[x_t, h_{t-1}] + b_C)$

El objetivo de esta parte es calcular cómo actualizaríamos el estado, si tuviéramos que hacerlo. Es la contribución de la nueva entrada en este paso de tiempo al estado de la celda. El cálculo sigue el mismo procedimiento ilustrado anteriormente, pero con una unidad de tanh en lugar de una unidad sigmoidea.

$\tilde{C_t}$ $i_t$

$i_t$ $\tilde{C_t}$

Luego viene la puerta de olvidar, que fue el quid de tu pregunta.

La puerta de olvidar

El propósito de la puerta de olvido es eliminar la información previamente aprendida que ya no es relevante. El ejemplo dado en el blog está basado en el idioma, pero también podemos pensar en una ventana deslizante. Si está modelando una serie temporal que está naturalmente representada por números enteros, como los recuentos de individuos infecciosos en un área durante un brote de enfermedad, entonces tal vez una vez que la enfermedad haya desaparecido en un área, ya no quiera molestarse en considerar esa área cuando pensando en cómo viajará la enfermedad a continuación.

Al igual que la capa de entrada, la capa de olvido toma el estado oculto del paso de tiempo anterior y la nueva entrada del paso de tiempo actual y los concatena. El punto es decidir estocásticamente qué olvidar y qué recordar. En el cálculo anterior, mostré una salida de capa sigmoidea de todos los 1, pero en realidad estaba más cerca de 0.999 y redondeé hacia arriba.

El cálculo se parece mucho a lo que hicimos en la capa de entrada:

$f_t = \sigma(W_f [x_t, h_{t-1}] + b_f)$

Esto nos dará un vector de tamaño 3 con valores entre 0 y 1. Supongamos que nos dio:

$[0.5, 0.8, 0.9]$

Luego decidimos estocásticamente, en base a estos valores, cuál de esas tres partes de la información olvidamos. Una forma de hacerlo es generar un número a partir de una distribución uniforme (0, 1) y si ese número es menor que la probabilidad de que la unidad se 'encienda' (0.5, 0.8 y 0.9 para las unidades 1, 2 y 3 respectivamente), luego activamos esa unidad. En este caso, eso significaría que olvidamos esa información.

Nota rápida: la capa de entrada y la capa de olvidar son independientes. Si fuera una persona de apuestas, apostaría que es un buen lugar para la paralelización.

Actualizar el estado de la celda

Ahora tenemos todo lo que necesitamos para actualizar el estado de la celda. Tomamos una combinación de la información de la entrada y las puertas de olvido:

$C_t = f_t \circ C_{t-1} + i_t \circ \tilde{C_t}$

$\circ$

Aparte: producto Hadamard

$x_1 = [1, 2, 3]$ $x_2 = [3, 2, 1]$

$x_1 \circ x_2 = [(1 \cdot 3), (2 \cdot 2), (3 \cdot 1)] = [3, 4, 3]$

Fin a un lado.

De esta manera, combinamos lo que queremos agregar al estado de la celda (entrada) con lo que queremos quitar del estado de la celda (olvidar). El resultado es el nuevo estado de la celda.

La puerta de salida

Esto nos dará el nuevo estado oculto. Esencialmente, el objetivo de la puerta de salida es decidir qué información queremos que la siguiente parte del modelo tenga en cuenta al actualizar el estado de la celda posterior. El ejemplo en el blog es nuevamente lenguaje: si el sustantivo es plural, la conjugación verbal en el siguiente paso cambiará. En un modelo de enfermedad, si la susceptibilidad de los individuos en un área particular es diferente a la de otra área, entonces la probabilidad de contraer una infección puede cambiar.

La capa de salida toma la misma entrada nuevamente, pero luego considera el estado actualizado de la celda:

$o_t = \sigma(W_o [x_t, h_{t-1}] + b_o)$

Nuevamente, esto nos da un vector de probabilidades. Luego calculamos:

$h_t = o_t \circ tanh(C_t)$

Por lo tanto, el estado actual de la celda y la puerta de salida deben acordar qué salida.

$tanh(C_t)$ $[0, 1, 1]$ $o_t$ $[0, 0, 1]$ $[0, 0, 1]$

$h_t$ $y_t = \sigma(W \cdot h_t)$

$h_t$

Hay muchas variantes en LSTM, ¡pero eso cubre lo esencial!

— EstadísticasSorceress
fuente

¡Gracias por tu respuesta! Tengo una pregunta extra es que no te importa. Una red neuronal profunda puede ser profunda porque la derivada de ReLU es 1 (si la salida es mayor que 0). ¿Es este el mismo caso para esta celda también? No estoy seguro de cómo Tanh y Sigmoid pueden tener una derivada constante de 1.

— user1157751

¡El gusto es mio! Una red neuronal se considera 'profunda' cuando tiene más de una capa oculta. Las derivadas de las funciones de activación (tanh, sigmoide, ReLU) afectan la forma en que se entrena la red. Como usted dice, dado que ReLU tiene una pendiente constante si su entrada es mayor que 0, su derivada es 1 si estamos en esa región de la función. Las unidades Tanh y sigmoides tienen una derivada cercana a 1 si estamos en el medio de su región de activación, pero su derivada no será constante. Tal vez debería hacer una publicación de blog por separado sobre los derivados ...

— StatsSorceress

¿Puede mostrar un ejemplo de su derivada cerca de 1 en la región de activación? ¿He visto muchos recursos que hablan de la derivada pero no se hacen cálculos?

— user1157751

Buena idea, pero me llevará algún tiempo escribir una publicación adecuada sobre eso. Mientras tanto, piense en la forma de la función tanh: es una 'S' alargada. En el medio es donde la derivada es la más alta. Cuando la S es plana (las colas de la S), la derivada es 0. Vi una fuente en la que dichos sigmoides tienen una derivada máxima de 0.25, pero no tengo un límite equivalente para tanh.

— StatsSorceress

La parte que no entiendo es diferente a ReLU con derivada constante 1 donde x> 0, pero sigmoide y tanh tenían un valor variable para ambas derivadas. ¿Cómo puede ser esto "constante"?

— user1157751