¿Por qué no utilizamos tasas de aprendizaje no constantes para gradientes decentes para otras cosas que no sean redes neuronales?


14

La literatura de aprendizaje profundo está llena de trucos inteligentes con el uso de tasas de aprendizaje no constantes en el descenso de gradiente. Cosas como la decadencia exponencial, RMSprop, Adagrad, etc. son fáciles de implementar y están disponibles en todos los paquetes de aprendizaje profundo, sin embargo, parecen no existir fuera de las redes neuronales. Hay alguna razón para esto? Si es que a las personas simplemente no les importa, ¿hay alguna razón por la que no tengamos que preocuparnos fuera de las redes neuronales?


2
Creo que la búsqueda de línea o el método de región de confianza son tasas de aprendizaje "no constantes".
Haitao Du

2
Hay muchos métodos de gradiente no constante que se desarrollaron independientemente de las NN. Barzilai-Borwein GD y Nesterov GD son dos ejemplos destacados.
Sycorax dice Reinstate Monica

@Sycorax, pero ¿se usan realmente a diario fuera de las NN?
Tim

2
@Tim no puedo decir. Cuando necesito hacer una búsqueda local fuera de las NN, tengo el lujo de usar métodos de segundo orden. Pero estaba emocionado de aprender sobre métodos GD más rápidos para la ocasión en que podría tener un lindo truco en mi bolsillo trasero.
Sycorax dice Reinstate Monica

1
Vale la pena señalar que (para mi sorpresa) me he encontrado con casos en que los GBM no usan tasas de aprendizaje constantes, para sorpresa de la gente. Un ejemplo particular ha sido la implementación de DART en LightGBM. Si bien los documentos originales no usan un LR cada vez más pequeño, la implementación real sí lo hace por defecto.
usεr11852 dice Reinstate Monic el

Respuestas:


16

Descargo de responsabilidad: no tengo mucha experiencia con la optimización fuera de las redes neuronales, por lo que mi respuesta estará claramente sesgada, pero hay varias cosas que juegan un papel importante:

  • Las redes neuronales (profundas) tienen muchos parámetros . Esto tiene varias implicaciones:

    En primer lugar, descarta los métodos de orden superior simplemente porque el cálculo de Hessian y derivados más altos se vuelve inviable. En otros dominios, este puede ser un enfoque válido mejor que cualquier ajuste a SGD.

    En segundo lugar, aunque SGD es maravilloso , tiende a ser muy lento. Estas variantes mejoradas de SGD permiten principalmente un entrenamiento más rápido, mientras que potencialmente pierden algunas de las buenas propiedades de SGD . En otros dominios, el tiempo de entrenamiento SGD puede no ser el cuello de botella, por lo que las mejoras obtenidas al acelerarlo pueden ser simplemente insignificantes.

  • El entrenamiento de redes neuronales (profundas) es una optimización no convexa y no conozco resultados significativos de relajación convexa en el campo. A diferencia de otros campos, las redes neuronales no se centran en soluciones probables globalmente óptimas, lo que lleva a invertir más esfuerzos para mejorar las propiedades de la superficie de pérdida y su recorrido durante la optimización.

    En otros campos, el empleo de la relajación convexa y la obtención de soluciones óptimas a nivel mundial pueden estar en el centro del interés en lugar del algoritmo de optimización, porque una vez que el problema se define como un problema convexo, la elección del algoritmo de optimización no puede mejorar la calidad de la solución. .

Supongo que esta respuesta no cubre todos los aspectos posibles y tengo curiosidad por otras opiniones.


Entonces, ¿básicamente estás diciendo que otros problemas son mucho más simples, así que no necesitas los trucos y el SGD de vainilla es suficiente para ellos?
Tim

3
Eso está simplificando demasiado mi mensaje. 1) algunos problemas pueden usar métodos de orden superior, sin necesidad de SGD adaptativo. 2) algunos problemas no pueden beneficiarse de la mejora de SGD debido a la ley de Amdahl. 3) algunos problemas pueden ofrecer soluciones convexas y la principal dificultad es presentarlas como convexas. Ninguno de estos dice que otros problemas son mucho más simples que el aprendizaje profundo, sino que explica por qué mejorar el SGD no está en el centro de su atención.
Jan Kukacka

Un posible punto 4: si tomó algún otro método y lo hizo lo suficientemente complejo (de alta dimensión, no lineal, no convexo) para beneficiarse de los sofisticados métodos de descenso de gradiente, probablemente se llamaría una red neuronal.
Nathaniel

1
@ JanKukacka Lo sé, estaba buscando aclaraciones ya que tu respuesta fue indirecta
Tim
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.