Estoy realizando experimentos en el conjunto de validación EMNIST usando redes con RMSProp, Adam y SGD. Estoy logrando un 87% de precisión con SGD (tasa de aprendizaje de 0.1) y abandono (0.1 problema de abandono), así como la regularización L2 (penalización 1e-05). Al probar la misma configuración exacta con RMSProp y Adam, así como la tasa de aprendizaje inicial de 0.001, estoy logrando una precisión del 85% y una curva de entrenamiento significativamente menos suave. No sé cómo explicar este comportamiento. ¿Cuál puede ser la razón detrás de la falta de suavidad en la curva de entrenamiento y la menor precisión y las mayores tasas de error logradas?