He estado usando theano para experimentar con LSTM y me preguntaba qué métodos de optimización (SGD, Adagrad, Adadelta, RMSprop, Adam, etc.) funcionan mejor para LSTM. ¿Hay trabajos de investigación sobre este tema?
Además, ¿la respuesta depende del tipo de aplicación para la que estoy usando el LSTM? Si es así, estoy usando LSTM para la clasificación de texto (donde el texto se convierte primero en vectores de palabras).
Finalmente, ¿serían las respuestas iguales o diferentes para los RNN? Cualquier sugerencia para investigar trabajos, o ideas personales sería muy apreciada.
Los LSTM parecen ser bastante poderosos y estoy interesado en aprender más sobre cómo usarlos mejor.