¿Por qué los pesos iniciales en la red neuronal son aleatorios?

Esto puede sonar tonto para alguien que tiene mucha experiencia con las redes neuronales, pero me molesta ...

Me refiero a que aleatorizar los pesos iniciales podría brindarle mejores resultados que estarían algo más cerca de lo que debería ser una red entrenada, pero también podría ser exactamente lo contrario de lo que debería ser, mientras que 0.5 u otro promedio para el rango de peso razonable el valor sonaría como una buena configuración predeterminada ...

¿Por qué los pesos iniciales de las neuronas se aleatorizan en lugar de 0.5 para todos ellos?

neural-networks training

— Matas Vaitkevicius
fuente

¿Cuál fue el problema con mi edición? ¿Crees que no se puede mejorar?

— nbro

@nbro agrega múltiples preguntas, lo que lo hace demasiado amplio ...

— Matas Vaitkevicius

¿Qué preguntas agregué que no están presentes en tu publicación? Acabo de reformular como preguntas lo que usted planteó como hipótesis.

— nbro

Por cierto, tu redacción ni siquiera es correcta. Los pesos no se están aleatorizando, pero se están inicializando aleatoriamente. Estos son dos conceptos diferentes y te referías al segundo. Mi edición también estaba destinada a mejorar la redacción.

— nbro

@nbro Hola, mira, no fui desagradecido, y ciertamente no quería ofenderte. Soy malo para hacer preguntas también, redacción y todo. Así que lamento haberte ofendido.

— Matas Vaitkevicius

Respuestas:

Los pesos iniciales en una red neuronal se inicializan aleatoriamente porque los métodos basados en gradientes comúnmente utilizados para entrenar redes neuronales no funcionan bien cuando todos los pesos se inicializan al mismo valor. Si bien no todos los métodos para entrenar redes neuronales se basan en gradientes, la mayoría lo son, y se ha demostrado en varios casos que la inicialización de la red neuronal al mismo valor hace que la red tarde mucho más en converger en una solución óptima. Además, si desea volver a entrenar su red neuronal porque se atascó en un mínimo local, se quedará atascado en el mismo mínimo local. Por las razones anteriores, no establecemos los pesos iniciales en un valor constante.

Referencias: ¿Por qué no funciona la propagación hacia atrás cuando inicializa los pesos con el mismo valor?

— Aiden Grossman
fuente

De hecho, se descomponen si todos los pesos son iguales.

— Quonux el

No debe asignar todo a 0.5 porque tendría el problema de "romper simetría".

http://www.deeplearningbook.org/contents/optimization.html

Quizás la única propiedad conocida con total certeza es que los parámetros iniciales necesitan " romper la simetría " entre diferentes unidades. Si dos unidades ocultas con la misma función de activación están conectadas a las mismas entradas, entonces estas unidades deben tener parámetros iniciales diferentes. Si tienen los mismos parámetros iniciales, un algoritmo de aprendizaje determinista aplicado a un costo y modelo deterministas actualizará constantemente ambas unidades de la misma manera. Incluso si el modelo o algoritmo de entrenamiento es capaz de usar la estocasticidad para calcular diferentes actualizaciones para diferentes unidades (por ejemplo, si uno entrena con abandono), generalmente es mejor inicializar cada unidad para calcular una función diferente de todas las demás unidades. Esto puede ayudar a garantizar que no se pierdan patrones de entrada en el espacio nulo de propagación directa y que no se pierdan patrones de gradiente en el espacio nulo de propagación inversa.

— Hola Mundo
fuente

Esa es una pregunta muy profunda. Recientemente hubo una serie de documentos con prueba de convergencia del descenso de gradiente para una red profunda sobreparamizada (por ejemplo, Gradient Descent Finds Global Minima of Deep Neural Networks , A Convergence Theory for Deep Learning via Over-Parameterization o Stochastic Gradient Descent Optimized Over-parametered Deep) Redes ReLU ). Todos ellos condicionan la prueba de distribución aleatoria gaussiana de pesos. Es importante que las pruebas dependan de dos factores:

Los pesos aleatorios hacen que el mapeo estadísticamente compresivo de ReLU (hasta la transformación lineal)
Los pesos aleatorios preservan la separación de la entrada para cualquier distribución de entrada, es decir, si las muestras de entrada son distinguibles, la propagación de la red no las hará indistinguibles

Esas propiedades muy difíciles de reproducir con matrices deterministas, e incluso si son reproducibles con matrices deterministas, el espacio NULL (dominio de ejemplos adversos) probablemente haría que el método fuera poco práctico, y la preservación más importante de esas propiedades durante el descenso del gradiente probablemente haría que el método fuera poco práctico. Pero en general es muy difícil pero no imposible, y puede justificar una investigación en esa dirección. En una situación análoga, hubo algunos resultados para la propiedad de isometría restringida para matrices deterministas en detección comprimida .

— mirror2image
fuente