¿Por qué los pesos iniciales de las redes neuronales se inicializan como números aleatorios? Había leído en alguna parte que esto se hace para "romper la simetría" y esto hace que la red neuronal aprenda más rápido. ¿Cómo la ruptura de la simetría hace que aprenda más rápido?
¿No sería una mejor idea inicializar los pesos a 0? De esa manera, los pesos podrían encontrar sus valores (ya sean positivos o negativos) más rápido.
¿Existe alguna otra filosofía subyacente detrás de aleatorizar los pesos además de esperar que estén cerca de sus valores óptimos cuando se inicializan?