Preguntas etiquetadas con gradient-descent

El descenso de gradiente es un algoritmo de optimización iterativa de primer orden. Para encontrar un mínimo local de una función usando el descenso de gradiente, se toman pasos proporcionales al negativo del gradiente (o del gradiente aproximado) de la función en el punto actual. Para el descenso de gradiente estocástico también existe la etiqueta [sgd].


3
Descenso de gradiente por lotes versus descenso de gradiente estocástico
Supongamos que tenemos un conjunto de entrenamiento para . Supongamos también que ejecutamos algún tipo de algoritmo de aprendizaje supervisado en el conjunto de entrenamiento. Las hipótesis se representan como . Necesitamos encontrar los parámetros que minimicen la "distancia" entre y . Deje(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,metroi = 1, \dots, mhθ( x( i …

6
¿Por qué usar el descenso de gradiente para la regresión lineal, cuando hay disponible una solución matemática de forma cerrada?
Estoy tomando los cursos de Machine Learning en línea y aprendí sobre Gradient Descent para calcular los valores óptimos en la hipótesis. h(x) = B0 + B1X ¿Por qué necesitamos usar el Descenso de degradado si podemos encontrar fácilmente los valores con la siguiente fórmula? Esto parece sencillo y sencillo …









1
Redes neuronales: impulso de cambio de peso y decadencia de peso
Momentum se usa para disminuir las fluctuaciones en los cambios de peso en iteraciones consecutivas:αα\alpha dondeE(w)es la función de error,w- el vector de pesos,η- tasa de aprendizaje.Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E(w)E(w)E({\bf w})ww{\bf w}ηη\eta La disminución de peso penaliza los cambios de peso:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial …

4
¿Cómo resuelve la función de activación rectilínea el problema del gradiente de fuga en las redes neuronales?
Encontré la unidad lineal rectificada (ReLU) elogiada en varios lugares como una solución al problema del gradiente de fuga para las redes neuronales. Es decir, uno usa max (0, x) como función de activación. Cuando la activación es positiva, es obvio que es mejor que, digamos, la función de activación …

2
¿Quién inventó el descenso gradiente estocástico?
Estoy tratando de entender la historia del descenso de gradiente y el descenso de gradiente estocástico . El descenso del gradiente fue inventado en Cauchy en 1847. Méthode générale pour la résolution des systèmes d'équations simultanées . pp. 536–538 Para obtener más información al respecto, consulte aquí . Desde entonces, …

2
¿Necesitamos un descenso de gradiente para encontrar los coeficientes de un modelo de regresión lineal?
Estaba tratando de aprender el aprendizaje automático usando el material de Coursera . En esta conferencia, Andrew Ng usa un algoritmo de descenso de gradiente para encontrar los coeficientes del modelo de regresión lineal que minimizará la función de error (función de costo). Para la regresión lineal, ¿necesitamos un descenso …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.