Usando una capa múltiple LSTM
con caída, ¿es aconsejable colocar la caída en todas las capas ocultas, así como en las capas densas de salida? En el artículo de Hinton (que proponía Dropout) solo puso Dropout en las capas densas, pero eso fue porque las capas internas ocultas eran convolucionales.
Obviamente, puedo probar mi modelo específico, pero me preguntaba si había un consenso al respecto.