La literatura de aprendizaje profundo está llena de trucos inteligentes con el uso de tasas de aprendizaje no constantes en el descenso de gradiente. Cosas como la decadencia exponencial, RMSprop, Adagrad, etc. son fáciles de implementar y están disponibles en todos los paquetes de aprendizaje profundo, sin embargo, parecen no existir fuera de las redes neuronales. Hay alguna razón para esto? Si es que a las personas simplemente no les importa, ¿hay alguna razón por la que no tengamos que preocuparnos fuera de las redes neuronales?