Entonces, ¿cuál es el problema con LSTM?

Estoy ampliando mi conocimiento del paquete Keras y he estado trabajando con algunos de los modelos disponibles. Tengo un problema de clasificación binaria de PNL que estoy tratando de resolver y he estado aplicando diferentes modelos.

Después de trabajar con algunos resultados y leer más y más sobre LSTM, parece que este enfoque es muy superior a cualquier otra cosa que haya probado (en múltiples conjuntos de datos). Sigo pensando para mí mismo, "¿por qué / cuándo no usarías LSTM?". El uso de las puertas adicionales, inherentes a LSTM, tiene mucho sentido para mí después de tener algunos modelos que sufren gradientes que desaparecen.

Entonces, ¿cuál es el problema con LSTM? ¿Dónde no les va tan bien? Sé que no existe un algoritmo de "talla única", por lo que debe haber una desventaja en LSTM.

— I_Play_With_Data
fuente

Prueba GRU, son como LSTM pero requieren menos memoria y entrenan más rápido.

— Vivek Khetan

Tiene razón en que los LSTM funcionan muy bien para algunos problemas, pero algunos de los inconvenientes son:

Los LSTM tardan más en entrenar
Los LSTM requieren más memoria para entrenar
Los LSTM son fáciles de sobreajustar
La deserción es mucho más difícil de implementar en LSTM
Los LSTM son sensibles a diferentes inicializaciones de peso aleatorio

Estos son en comparación con un modelo más simple como una red de conv 1D, por ejemplo.

Los primeros tres elementos se deben a que los LSTM tienen más parámetros.

— Imran
fuente

De acuerdo, y creo que el sobreajuste (también conocido como mala generalización) es quizás el mayor riesgo. Asegúrese de tener una buena estrategia para validar el modelo.

— tom