Creo que se refiere a capas LSTM apiladas verticalmente (suponiendo que los ejes horizontales sean el eje del tiempo.
En ese caso, la razón principal para apilar LSTM es permitir una mayor complejidad del modelo. En el caso de una simple red de avance, apilamos capas para crear una representación jerárquica de características de los datos de entrada para luego usarlos en alguna tarea de aprendizaje automático. Lo mismo se aplica para los LSTM apilados.
En cada momento, realice un LSTM, además de la entrada recurrente. Si la entrada ya es el resultado de una capa LSTM (o una capa de avance), el LSTM actual puede crear una representación de características más compleja de la entrada actual.
Ahora, la diferencia entre tener una capa de avance entre la entrada de entidades y la capa de LSTM y tener otra capa de LSTM es que una capa de avance (por ejemplo, una capa completamente conectada) no recibe retroalimentación de su paso de tiempo anterior y, por lo tanto, no puede dar cuenta de cierta patrones. Tener un LSTM en su lugar (por ejemplo, usando una representación LSTM apilada) se pueden describir patrones de entrada más complejos en cada capa