Preguntas etiquetadas con gradient-descent

El descenso de gradiente es un algoritmo de optimización iterativa de primer orden. Para encontrar un mínimo local de una función usando el descenso de gradiente, se toman pasos proporcionales al negativo del gradiente (o del gradiente aproximado) de la función en el punto actual. Para el descenso de gradiente estocástico también existe la etiqueta [sgd].




1
¿Cómo podría el descenso de gradiente estocástico ahorrar tiempo en comparación con el descenso de gradiente estándar?
Descenso de gradiente estándar calcularía el gradiente para todo el conjunto de datos de entrenamiento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Para un número predefinido de épocas, primero calculamos el vector de gradiente weights_grad de la función de pérdida para …

1
Aclaración sobre la implementación de la regla de Perceptron vs. el descenso del gradiente vs. el descenso del gradiente estocástico
Experimenté un poco con diferentes implementaciones de Perceptron y quiero asegurarme de entender las "iteraciones" correctamente. La regla original del perceptrón de Rosenblatt Según tengo entendido, en el clásico algoritmo perceptrón de Rosenblatt, los pesos se actualizan simultáneamente después de cada ejemplo de entrenamiento a través de Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} …



1
¿Por qué no utilizamos tasas de aprendizaje no constantes para gradientes decentes para otras cosas que no sean redes neuronales?
La literatura de aprendizaje profundo está llena de trucos inteligentes con el uso de tasas de aprendizaje no constantes en el descenso de gradiente. Cosas como la decadencia exponencial, RMSprop, Adagrad, etc. son fáciles de implementar y están disponibles en todos los paquetes de aprendizaje profundo, sin embargo, parecen no …

4
¿Cómo puede quedar atrapado en una silla de montar?
Actualmente estoy un poco desconcertado por cómo el descenso de gradiente de mini lotes puede quedar atrapado en un punto de silla de montar. La solución puede ser demasiado trivial que no la entiendo. Obtiene una nueva muestra cada época, y calcula un nuevo error basado en un nuevo lote, …





1
Elegir un tamaño de minibatch apropiado para el descenso de gradiente estocástico (SGD)
¿Existe alguna literatura que examine la elección del tamaño del minibatch al realizar el descenso de gradiente estocástico? En mi experiencia, parece ser una opción empírica, que generalmente se encuentra a través de la validación cruzada o el uso de diferentes reglas generales. ¿Es una buena idea aumentar lentamente el …


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.