Preguntas etiquetadas con gradient-descent

El descenso de gradiente es un algoritmo de optimización iterativa de primer orden. Para encontrar un mínimo local de una función usando el descenso de gradiente, se toman pasos proporcionales al negativo del gradiente (o del gradiente aproximado) de la función en el punto actual. Para el descenso de gradiente estocástico también existe la etiqueta [sgd].




6
Para problemas convexos, ¿el gradiente en Descenso de gradiente estocástico (SGD) siempre apunta al valor extremo global?
Dada una función de costo convexo, usando SGD para la optimización, tendremos un gradiente (vector) en un cierto punto durante el proceso de optimización. Mi pregunta es, dado el punto en el convexo, ¿el gradiente solo apunta en la dirección en que la función aumenta / disminuye más rápido, o …


3
Descenso coordinado vs gradiente
Me preguntaba cuáles son los diferentes casos de uso para los dos algoritmos, Descenso de coordenadas y Descenso de gradiente . Sé que el descenso coordinado tiene problemas con las funciones no uniformes, pero se usa en algoritmos populares como SVM y LASSO. Sin embargo, creo que el descenso de …

1
Propagación inversa de gradiente a través de conexiones de omisión de ResNet
Tengo curiosidad acerca de cómo los gradientes se propagan hacia atrás a través de una red neuronal utilizando módulos ResNet / conexiones de omisión. He visto un par de preguntas sobre ResNet (por ejemplo, red neuronal con conexiones de capa de salto ), pero esta pregunta específicamente sobre la propagación …



3
Desde la regla de Perceptron hasta el Descenso de gradiente: ¿en qué se diferencian los Perceptrones con una función de activación sigmoidea de la Regresión logística?
Básicamente, mi pregunta es que en los perceptrones multicapa, los perceptrones se usan con una función de activación sigmoidea. Para que en la regla de actualización se calcule comoy^y^\hat{y} y^= 11 + exp( - wTXyo)y^=11+exp⁡(-wTXyo)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} ¿En qué se diferencia este Perceptrón "sigmoide" de una regresión logística entonces? Diría …

2
En redes neuronales, ¿por qué utilizar métodos de gradiente en lugar de otras metaheurísticas?
En el entrenamiento de redes neuronales profundas y superficiales, ¿por qué los métodos de gradiente (p. Ej., Descenso de gradiente, Nesterov, Newton-Raphson) se usan comúnmente, en oposición a otras metaheurísticas? Por metaheurística me refiero a métodos como el recocido simulado, la optimización de colonias de hormigas, etc., que se desarrollaron …





Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.