Recientemente leí un artículo de Yann Dauphin et al. Identificando y atacando el problema del punto de silla de montar en la optimización no convexa de alta dimensión , donde introducen un interesante algoritmo de descenso llamado Saddle-Free Newton , que parece estar adaptado exactamente para la optimización de la red neuronal y no debería verse atrapado en los puntos de silla de montar como métodos de primer orden como vainilla SGD.
El documento se remonta a 2014, por lo que no es nada nuevo, sin embargo, no he visto que se use "en la naturaleza". ¿Por qué no se usa este método? ¿El cálculo de Hesse es demasiado prohibitivo para problemas / redes del tamaño real? ¿Existe alguna implementación de código abierto de este algoritmo, posiblemente para ser utilizado con algunos de los principales marcos de aprendizaje profundo?
Actualización de febrero de 2019: hay una implementación disponible ahora: https://github.com/dave-fernandes/SaddleFreeOptimizer )