Al entrenar una red neuronal usando el algoritmo de propagación hacia atrás, el método de descenso de gradiente se usa para determinar las actualizaciones de peso. Mi pregunta es: en lugar de utilizar el método de descenso de gradiente para localizar lentamente el punto mínimo con respecto a un cierto peso, ¿por qué no establecemos la derivada , y encuentra el valor de peso que minimiza el error?
Además, ¿por qué estamos seguros de que la función de error en la propagación inversa será mínima? ¿No puede resultar que la función de error es un máximo en su lugar? ¿Existe una propiedad específica de las funciones de aplastamiento que garantice que una red con cualquier número de nodos ocultos con pesos arbitrarios y vectores de entrada siempre dará una función de error que tiene algunos mínimos?