ηdictar qué tan lejos queremos movernos en la dirección calculada. Sin embargo, si utiliza un descenso de gradiente no normalizado, en cualquier punto, la distancia que se mueve en la dirección óptima está dictada por la magnitud del gradiente (en esencia, dictada por la superficie de la función objetivo, es decir, un punto en una superficie empinada tendrá alta magnitud, mientras que un punto en la superficie bastante plana tendrá baja magnitud).
η
η
3] Si desea dejar que la magnitud del gradiente dicte el tamaño del paso, entonces utilizará el descenso de gradiente no normalizado. Hay varias otras variantes, como que puedes dejar que la magnitud del gradiente decida el tamaño del paso, pero le pones un límite y así sucesivamente.
Ahora, el tamaño del paso claramente influye en la velocidad de convergencia y estabilidad. Cuál de los tamaños de pasos anteriores funciona mejor depende únicamente de su aplicación (es decir, la función objetivo). En ciertos casos, se puede analizar la relación entre la velocidad de convergencia, la estabilidad y el tamaño del paso. Esta relación puede dar una pista sobre si desea ir con un descenso de gradiente normalizado o no normalizado.
Para resumir, no hay diferencia entre el descenso de gradiente normalizado y no normalizado (en lo que respecta a la teoría detrás del algoritmo). Sin embargo, tiene un impacto práctico en la velocidad de convergencia y estabilidad. La elección de uno sobre el otro se basa únicamente en la aplicación / objetivo en cuestión.