¿Ventajas de apilar LSTM?

14

Me pregunto en qué situaciones es ventajoso apilar LSTM.

— Vadim Smolyakov
fuente

3

stats.stackexchange.com/questions/163304/… ¿ podría ser útil para tener una idea?

— innm

7

De ¿Cuáles son las ventajas de apilar múltiples LSTMs? (Solo actualizaré la respuesta allí):

De 1}:

Si bien en teoría no está claro cuál es el poder adicional obtenido por la arquitectura más profunda, se observó empíricamente que los RNN profundos funcionan mejor que los menos profundos en algunas tareas. En particular, Sutskever et al (2014) informan que una arquitectura profunda de 4 capas fue crucial para lograr un buen rendimiento de traducción automática en un marco codificador-decodificador. Irsoy y Cardie (2014) también informan mejores resultados al pasar de un BI-RNN de una capa a una arquitectura con varias capas. Muchos otros trabajos informan resultados usando arquitecturas RNN en capas, pero no se comparan explícitamente con los RNN de 1 capa.

Referencias

{1} Goldberg, Yoav. "Una introducción a los modelos de redes neuronales para el procesamiento del lenguaje natural". J. Artif. Intell. Res. (JAIR) 57 (2016): 345-420. https://scholar.google.com/scholar?cluster=3704132192758179278&hl=es&as_sdt=0,5 ; http://u.cs.biu.ac.il/~yogo/nnlp.pdf

— Franck Dernoncourt
fuente

4

Una situación en la que es ventajoso apilar LSTM es cuando queremos aprender la representación jerárquica de nuestros datos de series temporales. En los LSTM apilados, cada capa LSTM genera una secuencia de vectores que se utilizará como entrada a una capa LSTM posterior. Esta jerarquía de capas ocultas permite una representación más compleja de nuestros datos de series temporales, capturando información a diferentes escalas.

Por ejemplo, los LSTM apilados se pueden usar para mejorar la precisión en la clasificación de series de tiempo, como la predicción de actividad, en la que se pueden usar la frecuencia cardíaca, el conteo de pasos, el GPS y otras señales para predecir actividad como caminar, correr, andar en bicicleta, subir escaleras o descansar. Para ver un ejemplo de clasificación de series de tiempo con LSTM apilados utilizando datos de EEG, eche un vistazo al siguiente cuaderno de ipython .

— Vadim Smolyakov
fuente

1

En secuencia a modelo de secuencia: el trabajo de la red del codificador es leer la secuencia de entrada a nuestro modelo Seq2Seq y generar un vector de contexto C de dimensión fija para la secuencia. Para hacerlo, el codificador utilizará una celda de red neuronal recurrente, generalmente un LSTM, para leer los tokens de entrada de uno en uno. El estado oculto final de la celda se convertirá en C. Sin embargo, dado que es muy difícil comprimir una secuencia de longitud arbitraria en un solo vector de tamaño fijo (especialmente para tareas difíciles como la traducción), el codificador generalmente consistirá en LSTM apilados : una serie de "capas" LSTM donde las salidas de cada capa son la secuencia de entrada a la siguiente capa. El estado oculto LSTM de la capa final se usará como vector de contexto.

— Umer Rana
fuente