Estadísticas y Big Data adam

6

Adam optimizer con decadencia exponencial

En la mayoría de los códigos de Tensorflow, he visto que Adam Optimizer se usa con una tasa de aprendizaje constante de 1e-4(es decir, 0,0001). El código generalmente tiene el siguiente aspecto: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These …

53 neural-networks deep-learning gradient-descent tensorflow adam

1

¿Cómo funciona el método Adam de descenso de gradiente estocástico?

Estoy familiarizado con los algoritmos básicos de descenso de gradiente para entrenar redes neuronales. He leído el documento que propone a Adam: ADAM: UN MÉTODO PARA LA OPTIMIZACIÓN ESTOCÁSTICA . Si bien definitivamente tengo algunas ideas (al menos), el documento parece tener un nivel demasiado alto para mí en general. …

45 neural-networks optimization gradient-descent adam

3

¿Cuál es la razón por la que el Adam Optimizer se considera robusto al valor de sus hiperparámetros?

Estaba leyendo sobre el optimizador Adam para Deep Learning y encontré la siguiente oración en el nuevo libro Deep Learning de Bengio, Goodfellow y Courville: En general, se considera que Adam es bastante robusto para la elección de hiperparámetros, aunque a veces la tasa de aprendizaje debe cambiarse del valor …

24 neural-networks deep-learning optimization hyperparameter adam

2

Explicación de Spikes en pérdida de entrenamiento vs. iteraciones con Adam Optimizer

Estoy entrenando una red neuronal usando i) SGD y ii) Adam Optimizer. Cuando uso SGD normal, obtengo una curva de pérdida de entrenamiento suave versus iteración como se ve a continuación (la roja). Sin embargo, cuando utilicé el Adam Optimizer, la curva de pérdida de entrenamiento tiene algunos picos. ¿Cuál …

16 neural-networks deep-learning adam

1

¿Por qué es importante incluir un término de corrección de sesgo para el optimizador Adam para Deep Learning?

Estaba leyendo sobre el optimizador Adam para Deep Learning y encontré la siguiente oración en el nuevo libro Deep Learning de Begnio, Goodfellow y Courtville: Adam incluye correcciones de sesgo a las estimaciones de los momentos de primer orden (el término de momento) y los momentos de segundo orden (no …

15 machine-learning neural-networks optimization conv-neural-network adam

1

RMSProp y Adam vs SGD

Estoy realizando experimentos en el conjunto de validación EMNIST usando redes con RMSProp, Adam y SGD. Estoy logrando un 87% de precisión con SGD (tasa de aprendizaje de 0.1) y abandono (0.1 problema de abandono), así como la regularización L2 (penalización 1e-05). Al probar la misma configuración exacta con RMSProp …

12 machine-learning optimization sgd adam

Preguntas etiquetadas con adam