Estoy ampliando mi conocimiento del paquete Keras y he estado trabajando con algunos de los modelos disponibles. Tengo un problema de clasificación binaria de PNL que estoy tratando de resolver y he estado aplicando diferentes modelos.
Después de trabajar con algunos resultados y leer más y más sobre LSTM, parece que este enfoque es muy superior a cualquier otra cosa que haya probado (en múltiples conjuntos de datos). Sigo pensando para mí mismo, "¿por qué / cuándo no usarías LSTM?". El uso de las puertas adicionales, inherentes a LSTM, tiene mucho sentido para mí después de tener algunos modelos que sufren gradientes que desaparecen.
Entonces, ¿cuál es el problema con LSTM? ¿Dónde no les va tan bien? Sé que no existe un algoritmo de "talla única", por lo que debe haber una desventaja en LSTM.