¿Qué es una red neuronal recurrente?

12

Sorprendentemente, esto no se hizo antes, al menos no encontré nada más que algunas preguntas vagamente relacionadas.

Entonces, ¿qué es una red neuronal recurrente y cuáles son sus ventajas sobre los NN regulares?

recurrent-neural-networks

— olinarr
fuente

1

Vea la publicación del blog Understanding LSTM Networks de Christopher Olah.

— MrE

6

Las redes neuronales recurrentes (RNN) son una clase de arquitectura de red neuronal artificial inspirada en la conectividad cíclica de las neuronas en el cerebro. Utiliza bucles de función iterativos para almacenar información.

Diferencia con las redes neuronales tradicionales usando imágenes de este libro :

Y, un RNN:

Observe la diferencia: las conexiones de las redes neuronales de avance no forman ciclos. Si relajamos esta condición, y también permitimos conexiones cíclicas, obtenemos redes neuronales recurrentes (RNN). Puedes ver eso en la capa oculta de la arquitectura.

Si bien la diferencia entre un perceptrón multicapa y un RNN puede parecer trivial, las implicaciones para el aprendizaje de secuencias son de largo alcance. Un MLP solo puede mapear desde vectores de entrada a salida , mientras que un RNN puede mapear en principio desde el historial completo de entradas anteriores a cada salida . De hecho, el resultado equivalente a la teoría de aproximación universal para MLP es que un RNN con un número suficiente de unidades ocultas puede aproximar cualquier mapeo secuencial a secuencia medible con precisión arbitraria.

Para llevar importante:

Las conexiones recurrentes permiten que una 'memoria' de entradas anteriores persista en el estado interno de la red y, por lo tanto, influya en la salida de la red.

No es apropiado hablar en términos de ventajas, ya que ambos son de última generación y son particularmente buenos en ciertas tareas. Una amplia categoría de tareas en las que RNN se destaca es:

Etiquetado de secuencia

El objetivo del etiquetado de secuencias es asignar secuencias de etiquetas, extraídas de un alfabeto fijo, a secuencias de datos de entrada.

Ejemplo: transcriba una secuencia de características acústicas con palabras habladas (reconocimiento de voz) o una secuencia de cuadros de video con gestos con las manos (reconocimiento de gestos).

Algunas de las subtareas en el etiquetado de secuencia son:

Clasificación de secuencia

Las secuencias de etiquetas están obligadas a ser de longitud uno. Esto se conoce como clasificación de secuencia, ya que cada secuencia de entrada se asigna a una sola clase. Los ejemplos de la tarea de clasificación de secuencia incluyen la identificación de un solo trabajo hablado y el reconocimiento de una carta individual escrita a mano.

Clasificación de segmento

La clasificación de segmento se refiere a aquellas tareas donde las secuencias de destino consisten en múltiples etiquetas, pero las ubicaciones de las etiquetas, es decir, las posiciones de los segmentos de entrada a los que se aplican las etiquetas, se conocen de antemano.

— ingenuo
fuente

9

Una red neuronal recurrente (RNN) es una red neuronal artificial que contiene conexiones hacia atrás o auto-conexiones, en lugar de solo tener conexiones hacia adelante, como en una red neuronal de alimentación hacia adelante (FFNN). El adjetivo "recurrente", por lo tanto, se refiere a esta conexión hacia atrás o auto-conexiones, que crean bucles en estas redes.

Un RNN se puede entrenar utilizando la propagación hacia atrás a través del tiempo (BBTT), de modo que estas conexiones hacia atrás o auto-conexiones "memoricen" las entradas vistas anteriormente. Por lo tanto, estas conexiones se utilizan principalmente para rastrear las relaciones temporales entre elementos de una secuencia de entradas, lo que hace que los RNN sean muy adecuados para la predicción de secuencias y tareas similares.

Existen varios modelos RNN: por ejemplo, RNN con unidades LSTM o GRU. LSTM (o GRU) es un RNN cuyas unidades individuales realizan una transformación más compleja que una unidad en un "RNN simple", que realiza una transformación lineal de la entrada seguida de la aplicación de una función no lineal (por ejemplo, ReLU) a este transformación lineal En teoría, los "RNN simples" son tan poderosos como los RNN con unidades LSTM. En la práctica, sufren el problema de "gradientes que desaparecen y explotan". Por lo tanto, en la práctica, se utilizan LSTM (o unidades recurrentes sofisticadas similares).

— nbro
fuente