Al inicializar los pesos de conexión en una red neuronal de avance, es importante inicializarlos aleatoriamente para evitar cualquier simetría que el algoritmo de aprendizaje no pueda romper.
La recomendación que he visto en varios lugares (por ejemplo, en el tutorial MNIST de TensorFlow ) es usar la distribución normal truncada usando una desviación estándar de , dondeNes el número de entradas a la capa de neurona dada.
Creo que la fórmula de desviación estándar garantiza que los gradientes retropropagados no se disuelvan o amplifiquen demasiado rápido. Pero no sé por qué estamos usando una distribución normal truncada en lugar de una distribución normal regular. ¿Es para evitar pesos atípicos raros?