[Nota 5 de abril de 2019: se ha actualizado una nueva versión del documento en arXiv con muchos resultados nuevos. También presentamos versiones de retroceso de Momentum y NAG, y demostramos la convergencia bajo los mismos supuestos que para Backtracking Gradient Descent.
Los códigos fuente están disponibles en GitHub en el enlace: https://github.com/hank-nguyen/MBT-optimizer
Mejoramos los algoritmos para aplicar a DNN, y obtenemos un mejor rendimiento que los algoritmos de última generación como MMT, NAG, Adam, Adamax, Adagrad, ...
La característica más especial de nuestros algoritmos es que son automáticos, no es necesario hacer un ajuste manual de las tasas de aprendizaje como práctica común. Nuestro ajuste automático es de naturaleza diferente de Adam, Adamax, Adagrad, ... y así sucesivamente. Más detalles están en el documento.
]
Basado en resultados muy recientes: en mi trabajo conjunto en este artículo https://arxiv.org/abs/1808.05160
Mostramos que el descenso de gradiente de retroceso , cuando se aplica a una función arbitraria C ^ 1 , con solo un número contable de puntos críticos, siempre convergerá a un punto crítico o divergerá al infinito. Esta condición se cumple para una función genérica, por ejemplo, para todas las funciones Morse. También demostramos que, en cierto sentido, es muy raro que el punto límite sea un punto de silla de montar. Entonces, si todos sus puntos críticos no son degenerados, en cierto sentido, los puntos límite son todos mínimos. [Véanse también las referencias en el documento citado para los resultados conocidos en el caso del descenso de gradiente estándar.]f
Con base en lo anterior, propusimos un nuevo método de aprendizaje profundo que está a la par con los métodos más modernos y no necesita un ajuste manual de las tasas de aprendizaje. (En pocas palabras , la idea es que ejecute el descenso de gradiente de retroceso una cierta cantidad de tiempo, hasta que vea que las tasas de aprendizaje, que cambian con cada iteración, se estabilizan. Esperamos esta estabilización, en particular en un punto crítico que es C ^ 2 y no es degenerado, debido al resultado de convergencia que mencioné anteriormente. En ese punto, cambia al método de descenso de gradiente estándar. Consulte el documento citado para obtener más detalles. Este método también se puede aplicar a otros algoritmos óptimos .)
PD: En cuanto a su pregunta original sobre el método de descenso de gradiente estándar, que yo sepa, solo en el caso de que la derivada del mapa sea globalmente Lipschitz y la tasa de aprendizaje sea lo suficientemente pequeña como para que el método de descenso de gradiente estándar converja. [Si no se cumplen estas condiciones, existen simples contraejemplos que muestran que no es posible obtener un resultado de convergencia, consulte el documento citado para algunos.] En el documento citado anteriormente, argumentamos que a largo plazo el método de descenso de gradiente de retroceso será El método de descenso de gradiente estándar, que explica por qué el método de descenso de gradiente estándar suele funcionar bien en la práctica.