Preguntas etiquetadas con sgd

3
Descenso de gradiente por lotes versus descenso de gradiente estocástico
Supongamos que tenemos un conjunto de entrenamiento para . Supongamos también que ejecutamos algún tipo de algoritmo de aprendizaje supervisado en el conjunto de entrenamiento. Las hipótesis se representan como . Necesitamos encontrar los parámetros que minimicen la "distancia" entre y . Deje(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,metroi = 1, \dots, mhθ( x( i …

2
¿Quién inventó el descenso gradiente estocástico?
Estoy tratando de entender la historia del descenso de gradiente y el descenso de gradiente estocástico . El descenso del gradiente fue inventado en Cauchy en 1847. Méthode générale pour la résolution des systèmes d'équations simultanées . pp. 536–538 Para obtener más información al respecto, consulte aquí . Desde entonces, …

6
Para problemas convexos, ¿el gradiente en Descenso de gradiente estocástico (SGD) siempre apunta al valor extremo global?
Dada una función de costo convexo, usando SGD para la optimización, tendremos un gradiente (vector) en un cierto punto durante el proceso de optimización. Mi pregunta es, dado el punto en el convexo, ¿el gradiente solo apunta en la dirección en que la función aumenta / disminuye más rápido, o …


1
¿Cómo podría el descenso de gradiente estocástico ahorrar tiempo en comparación con el descenso de gradiente estándar?
Descenso de gradiente estándar calcularía el gradiente para todo el conjunto de datos de entrenamiento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Para un número predefinido de épocas, primero calculamos el vector de gradiente weights_grad de la función de pérdida para …

4
¿Cómo puede quedar atrapado en una silla de montar?
Actualmente estoy un poco desconcertado por cómo el descenso de gradiente de mini lotes puede quedar atrapado en un punto de silla de montar. La solución puede ser demasiado trivial que no la entiendo. Obtiene una nueva muestra cada época, y calcula un nuevo error basado en un nuevo lote, …

1
RMSProp y Adam vs SGD
Estoy realizando experimentos en el conjunto de validación EMNIST usando redes con RMSProp, Adam y SGD. Estoy logrando un 87% de precisión con SGD (tasa de aprendizaje de 0.1) y abandono (0.1 problema de abandono), así como la regularización L2 (penalización 1e-05). Al probar la misma configuración exacta con RMSProp …

1
¿Cuál es la diferencia entre VAE y la propagación estocástica para modelos generativos profundos?
¿Cuál es la diferencia entre la codificación automática Bayes variacional y la retropropagación estocástica para modelos generativos profundos ? ¿La inferencia en ambos métodos conduce a los mismos resultados? No conozco ninguna comparación explícita entre los dos métodos, a pesar de que ambos grupos de autores se citan entre sí.


3
Descenso de gradiente en funciones no convexas
¿Qué situaciones sabemos de dónde se puede mostrar que el descenso de gradiente converge (ya sea a un punto crítico o a un mínimo local / global) para funciones no convexas? Para SGD en funciones no convexas, se ha revisado un tipo de prueba aquí, http://www.cs.cornell.edu/courses/cs6787/2017fa/Lecture7.pdf
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.