En primer lugar, algunos algoritmos convergen incluso con ponderaciones iniciales cero. Un ejemplo sencillo es una red de perceptrón lineal. Por supuesto, muchas redes de aprendizaje requieren una ponderación inicial aleatoria (aunque esto no es garantía de obtener la mejor y más rápida respuesta).
Las redes neuronales utilizan la retropropagación para aprender y actualizar los pesos, y el problema es que en este método, los pesos convergen al óptimo local (costo / pérdida mínimo local), no al óptimo global.
La ponderación aleatoria ayuda a la red a arriesgarse en cada dirección en el espacio disponible y mejorarlas gradualmente para llegar a una mejor respuesta y no limitarse a una dirección o respuesta.
[La siguiente imagen muestra un ejemplo unidimensional de cómo convergencia. Dada la ubicación inicial, se logra una optimización local pero no una optimización global. En dimensiones más altas, la ponderación aleatoria puede aumentar las posibilidades de estar en el lugar correcto o comenzar mejor, lo que resulta en pesos convergentes a mejores valores.] [1]
[1]: https://i.stack.imgur.com/2dioT.png [Kalhor, A. (2020). NN de clasificación y regresión. Conferencia.]
En el caso más simple, el nuevo peso es el siguiente:
W_new = W_old + D_loss
Aquí, el gradiente de la función de costo se agrega al peso anterior para obtener un nuevo peso. Si todos los pesos anteriores son iguales, en el siguiente paso todos los pesos pueden ser iguales. Como resultado, en este caso, desde un punto de vista geométrico, la red neuronal está inclinada en una dirección y todos los pesos son iguales. Pero si los pesos son diferentes, es posible actualizar los pesos en diferentes cantidades. (Dependiendo del factor de impacto que tenga cada peso sobre el resultado, afecta el costo y las actualizaciones de los pesos. Por lo que incluso un pequeño error en la ponderación aleatoria inicial se puede solucionar).
Este fue un ejemplo muy simple, pero muestra el efecto de la inicialización de ponderación aleatoria en el aprendizaje. Esto permite que la red neuronal vaya a diferentes espacios en lugar de ir a un lado. Como resultado, en el proceso de aprendizaje, vaya al mejor de estos espacios.