Para agregar a la respuesta de Thierry, puede pensar en el error como una función del vector de peso, es decir, como una función de Rnorte→ Rque le gustaría minimizar El algoritmo de propagación hacia atrás funciona al observar un vecindario local de un punto y ver qué dirección conducirá a un error menor. Esto le dará un mínimo local.
Lo que quieres es un mínimo global, pero no tienes forma garantizada de encontrarlo. Y si su superficie tiene varios mínimos locales, entonces puede estar en problemas.
Pero si solo tiene unos pocos, la estrategia de Thierry debería funcionar: realizar múltiples búsquedas de mínimos locales comenzando en puntos seleccionados al azar debería aumentar las posibilidades de que encuentre el mínimo global.
Y en el feliz caso en el que solo hay un mínimo, cualquier vector de peso inicial lo llevará a él.