Preguntas etiquetadas con optimization

Use esta etiqueta para cualquier uso de optimización dentro de las estadísticas.




2
¿Cómo elegir el algoritmo de optimización correcto?
Necesito encontrar el mínimo de una función. Leer los documentos en http://docs.scipy.org/doc/scipy/reference/optimize.html , veo que hay varios algoritmos que hacen lo mismo, es decir, encontrar el mínimo. ¿Cómo sé cuál debo elegir? algunos de los algoritmos enumerados Minimice una función usando el algoritmo downx simplex. Minimice una función usando el …


1
¿Cómo podría el descenso de gradiente estocástico ahorrar tiempo en comparación con el descenso de gradiente estándar?
Descenso de gradiente estándar calcularía el gradiente para todo el conjunto de datos de entrenamiento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Para un número predefinido de épocas, primero calculamos el vector de gradiente weights_grad de la función de pérdida para …

1
Aclaración sobre la implementación de la regla de Perceptron vs. el descenso del gradiente vs. el descenso del gradiente estocástico
Experimenté un poco con diferentes implementaciones de Perceptron y quiero asegurarme de entender las "iteraciones" correctamente. La regla original del perceptrón de Rosenblatt Según tengo entendido, en el clásico algoritmo perceptrón de Rosenblatt, los pesos se actualizan simultáneamente después de cada ejemplo de entrenamiento a través de Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} …

2
Estimación de ARIMA a mano
Estoy tratando de entender cómo se estiman los parámetros en el modelado ARIMA / Box Jenkins (BJ). Desafortunadamente, ninguno de los libros que he encontrado describe el procedimiento de estimación como el procedimiento de estimación de probabilidad de registro en detalle. Encontré el sitio web / material didáctico que fue …




1
¿Por qué es importante incluir un término de corrección de sesgo para el optimizador Adam para Deep Learning?
Estaba leyendo sobre el optimizador Adam para Deep Learning y encontré la siguiente oración en el nuevo libro Deep Learning de Begnio, Goodfellow y Courtville: Adam incluye correcciones de sesgo a las estimaciones de los momentos de primer orden (el término de momento) y los momentos de segundo orden (no …


1
¿Por qué no utilizamos tasas de aprendizaje no constantes para gradientes decentes para otras cosas que no sean redes neuronales?
La literatura de aprendizaje profundo está llena de trucos inteligentes con el uso de tasas de aprendizaje no constantes en el descenso de gradiente. Cosas como la decadencia exponencial, RMSprop, Adagrad, etc. son fáciles de implementar y están disponibles en todos los paquetes de aprendizaje profundo, sin embargo, parecen no …


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.