El LSTM se inventó específicamente para evitar el problema del gradiente de fuga. Se supone que debe hacer eso con el carrusel de error constante (CEC), que en el diagrama a continuación (de Greff et al. ) Corresponde al bucle alrededor de la celda .
(fuente: deeplearning4j.org )
Y entiendo que esa parte puede verse como una especie de función de identidad, por lo que la derivada es una y el gradiente permanece constante.
Lo que no entiendo es cómo no desaparece debido a las otras funciones de activación. Las puertas de entrada, salida y olvido usan un sigmoide, cuya derivada es como máximo 0.25, y g y h eran tradicionalmente tanh . ¿Cómo la propagación hacia atrás a través de esos no hace que el gradiente desaparezca?