En redes neuronales, ¿por qué utilizar métodos de gradiente en lugar de otras metaheurísticas?

20

En el entrenamiento de redes neuronales profundas y superficiales, ¿por qué los métodos de gradiente (p. Ej., Descenso de gradiente, Nesterov, Newton-Raphson) se usan comúnmente, en oposición a otras metaheurísticas?

Por metaheurística me refiero a métodos como el recocido simulado, la optimización de colonias de hormigas, etc., que se desarrollaron para evitar quedar atrapados en un mínimo local.

— Lior
fuente

1

FYI ¿Es posible entrenar una red neuronal sin propagación hacia atrás?

— Franck Dernoncourt

13

Extendiendo la respuesta de @Dikran Marsupial ...

Anna Choromanska y sus colegas en el grupo de Yan LeCunn en la Universidad de Nueva York, abordan esto en su artículo de 2014 de AISTATS "La superficie de pérdida de las redes multicapa" . Utilizando la teoría de matrices aleatorias, junto con algunos experimentos, argumentan que:

Para redes de gran tamaño, la mayoría de los mínimos locales son equivalentes y producen un rendimiento similar en un conjunto de prueba.

La probabilidad de encontrar un mínimo local "malo" (alto valor) no es cero para redes de pequeño tamaño y disminuye rápidamente con el tamaño de las redes.

Luchar por encontrar el mínimo global en el conjunto de entrenamiento (en oposición a uno de los muchos buenos locales) no es útil en la práctica y puede conducir a un sobreajuste.

[De la página 2 del documento]

Desde este punto de vista, no hay una gran razón para implementar enfoques pesados para encontrar el mínimo global. Ese tiempo se gastaría mejor probando nuevas topologías de red, características, conjuntos de datos, etc.

Dicho esto, muchas personas han pensado en aumentar o reemplazar SGD. Para redes bastante pequeñas (según los estándares contemporáneos), estos metahurísticos mejorados parecen hacer algo que Mavrovouniotis y Yang (2016) muestran que la optimización de colonias de hormigas + backprop supera a backprop no modificado en varios conjuntos de datos de referencia (aunque no por mucho). Rere el al. (2015) utilizan el recocido simulado para entrenar a una CNN y al principio descubre que funciona mejor en el conjunto de validación. Después de 10 épocas, sin embargo, solo queda una diferencia muy pequeña (y no probada para la significación) en el rendimiento. La ventaja de convergencia más rápida por época también se ve compensada por una cantidad de tiempo de cómputo dramáticamente mayor por época, por lo que esta no es una ganancia obvia para el recocido simulado.

Es posible que estas heurísticas hagan un mejor trabajo al inicializar la red y, una vez que se haya señalado el camino correcto, cualquier optimizador lo hará. Sutskever y col. (2013) del grupo de Geoff Hinton argumentan algo como esto en su artículo ICML 2013 .

— Matt Krause
fuente

17

Los mínimos locales no son realmente un problema tan grande con las redes neuronales como se sugiere a menudo. Algunos de los mínimos locales se deben a la simetría de la red (es decir, puede permutar las neuronas ocultas y abandonar la función).de la red sin cambios. Todo lo que es necesario es encontrar un buen mínimo local, en lugar de los mínimos globales. Como sucede, la optimización agresiva de un modelo muy flexible, como una red neuronal, es probable que sea una receta para sobreajustar los datos, por lo que usar, por ejemplo, el recocido simulado para encontrar los mínimos globales del criterio de entrenamiento probablemente dará a una red neuronal peor rendimiento de generalización que uno entrenado por descenso de gradiente que termina en un mínimo local. Si se utilizan estos métodos de optimización heurística, entonces recomendaría incluir un término de regularización para limitar la complejidad del modelo.

... o utilice alternativamente, por ejemplo, un método de núcleo o un modelo de función de base radial, que probablemente sea menos problemático.

— Dikran Marsupial
fuente