Estoy tratando de entender la optimización de descenso de gradiente en algoritmos ML (aprendizaje automático). Tengo entendido que hay una función donde el costo es el objetivo de minimizar el error y - y . En un escenario donde los pesos w 1 , w 2 se están optimizando para dar el error mínimo y se están utilizando derivadas parciales, ¿cambia w 1 y w 2 en cada paso o es una combinación (por ejemplo, solo en algunas iteraciones w 1 se cambia y cuando w 1 ya no reduce el error, la derivada comienza con w 2)? La aplicación podría ser un modelo de regresión lineal, un modelo de regresión logística o algoritmos de refuerzo.
w1
, disminuirw2
según la dirección de la derivada parcial para alcanzar los mínimos locales y solo para confirmar que el algoritmo no siempre dará los mínimos globales siempre?