¿Por qué debería elegirse la inicialización de pesos y sesgos alrededor de 0?

13

Leo esto:

Para entrenar nuestra red neuronal, inicializaremos cada parámetro W (l) ijWij (l) y cada b (l) ibi (l) a un pequeño valor aleatorio cercano a cero (digamos de acuerdo con Normal (0, ϵ2) Normal (0 , ϵ2) distribución para algunos pequeños ϵϵ, digamos 0.01)

de los tutoriales de aprendizaje profundo de Stanford en el séptimo párrafo del algoritmo de retropropagación

Lo que no entiendo es ¿por qué la inicialización del peso o el sesgo debería estar alrededor de 0 ?

deep-learning stanford-nlp randomized-algorithms

— cinqS
fuente

11

Suponiendo una normalización de datos bastante razonable, la expectativa de los pesos debería ser cero o cercana. Puede ser razonable, entonces, establecer todos los pesos iniciales a cero porque un peso inicial positivo tendrá que ir más lejos si realmente fuera un peso negativo y viceversa. Esto, sin embargo, no funciona. Si todos los pesos son iguales, todos tendrán el mismo error y el modelo no aprenderá nada: no hay una fuente de asimetría entre las neuronas.

Lo que podríamos hacer, en cambio, es mantener los pesos muy cerca de cero, pero hacerlos diferentes inicializándolos en números pequeños que no sean cero. Esto es lo que se sugiere en el tutorial que vinculó. Tiene la misma ventaja de la inicialización de todo cero, ya que está cerca del valor de expectativa de "mejor suposición", pero la simetría también se ha roto lo suficiente como para que el algoritmo funcione.

Este enfoque tiene problemas adicionales. No es necesariamente cierto que números más pequeños funcionen mejor, especialmente si la red neuronal es profunda. Los gradientes calculados en retropropagación son proporcionales a los pesos; pesos muy pequeños conducen a gradientes muy pequeños y pueden hacer que la red tarde mucho, mucho más tiempo en entrenarse o nunca se complete.

Otro problema potencial es que la distribución de las salidas de cada neurona, cuando se usan valores de inicialización aleatorios, tiene una variación que se hace más grande con más entradas. Un paso adicional común es normalizar la varianza de salida de la neurona a 1 dividiendo sus pesos por donde es el número de entradas a la neurona. Los pesos resultantes se distribuyen normalmente entre $sqrt(d)$ $d$ $\left[\frac{-1}{\sqrt{d}}, \frac{1}{\sqrt{d}}\right]$

— Eumenedies
fuente

3

Si lo configura como 0, todos tendrán el mismo error, por lo que backprop los hará a todos iguales; por lo tanto, debe tener una inicialización aleatoria.

¿Por qué alrededor de 0? Creo que esta publicación puede responderla bien: /stats/47590/what-are-good-initial-weights-in-a-neural-network

— Landmaster
fuente