Parece el optimizador Adaptive Moment Estimation (Adam) casi siempre funciona mejor (alcanza un mínimo global de manera más rápida y confiable) al minimizar la función de costo en el entrenamiento de redes neuronales.
¿Por qué no usar siempre a Adán? ¿Por qué molestarse incluso en usar RMSProp u optimizadores de impulso?