Estoy entrenando un modelo (red neuronal recurrente) para clasificar 4 tipos de secuencias. Mientras corro mi entrenamiento, veo que la pérdida de entrenamiento disminuye hasta el punto en que clasifico correctamente más del 90% de las muestras en mis lotes de entrenamiento. Sin embargo, un par de épocas después, noto que la pérdida de entrenamiento aumenta y que mi precisión disminuye. Esto me parece extraño ya que esperaría que en el conjunto de entrenamiento el rendimiento mejore con el tiempo y no se deteriore. Estoy usando la pérdida de entropía cruzada y mi tasa de aprendizaje es 0.0002.
Actualización: Resultó que la tasa de aprendizaje era demasiado alta. Con una tasa de aprendizaje lo suficientemente baja, no observo este comportamiento. Sin embargo, todavía encuentro esto peculiar. Cualquier buena explicación es bienvenida por qué sucede esto