Extendiendo la respuesta de @Dikran Marsupial ...
Anna Choromanska y sus colegas en el grupo de Yan LeCunn en la Universidad de Nueva York, abordan esto en su artículo de 2014 de AISTATS "La superficie de pérdida de las redes multicapa" . Utilizando la teoría de matrices aleatorias, junto con algunos experimentos, argumentan que:
Para redes de gran tamaño, la mayoría de los mínimos locales son equivalentes y producen un rendimiento similar en un conjunto de prueba.
La probabilidad de encontrar un mínimo local "malo" (alto valor) no es cero para redes de pequeño tamaño y disminuye rápidamente con el tamaño de las redes.
Luchar por encontrar el mínimo global en el conjunto de entrenamiento (en oposición a uno de los muchos buenos locales) no es útil en la práctica y puede conducir a un sobreajuste.
[De la página 2 del documento]
Desde este punto de vista, no hay una gran razón para implementar enfoques pesados para encontrar el mínimo global. Ese tiempo se gastaría mejor probando nuevas topologías de red, características, conjuntos de datos, etc.
Dicho esto, muchas personas han pensado en aumentar o reemplazar SGD. Para redes bastante pequeñas (según los estándares contemporáneos), estos metahurísticos mejorados parecen hacer algo que Mavrovouniotis y Yang (2016) muestran que la optimización de colonias de hormigas + backprop supera a backprop no modificado en varios conjuntos de datos de referencia (aunque no por mucho). Rere el al. (2015) utilizan el recocido simulado para entrenar a una CNN y al principio descubre que funciona mejor en el conjunto de validación. Después de 10 épocas, sin embargo, solo queda una diferencia muy pequeña (y no probada para la significación) en el rendimiento. La ventaja de convergencia más rápida por época también se ve compensada por una cantidad de tiempo de cómputo dramáticamente mayor por época, por lo que esta no es una ganancia obvia para el recocido simulado.
Es posible que estas heurísticas hagan un mejor trabajo al inicializar la red y, una vez que se haya señalado el camino correcto, cualquier optimizador lo hará. Sutskever y col. (2013) del grupo de Geoff Hinton argumentan algo como esto en su artículo ICML 2013 .