Si nos fijamos en la documentación http://keras.io/optimizers/ hay un parámetro en el SGD para la descomposición. Sé que esto reduce la tasa de aprendizaje con el tiempo. Sin embargo, no puedo entender cómo funciona exactamente. ¿Es un valor que se multiplica por la tasa de aprendizaje como lr = lr * (1 - decay)
exponencial? Además, ¿cómo puedo ver qué tasa de aprendizaje utiliza mi modelo? Cuando imprimo model.optimizer.lr.get_value()
después de ejecutar un ajuste durante algunas épocas, devuelve la tasa de aprendizaje original a pesar de que configuré el decaimiento.
También tengo que establecer nesterov = True para usar el impulso o hay solo dos tipos diferentes de impulso que puedo usar. Por ejemplo, ¿hay algún punto para hacer esto?sgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)
self.iterations
refiere al número de pasos SGD individuales, no al número de épocas, rigt?