¿Por qué se utiliza sqrt (6) para calcular epsilon para la inicialización aleatoria de redes neuronales?

En las notas de la semana 5 para la clase de aprendizaje automático Coursera de Andrew Ng , se proporciona la siguiente fórmula para calcular el valor de $\epsilon$ solía inicializar $\Theta$ con valores aleatorios:

En el ejercicio , se dan más aclaraciones:

Una estrategia efectiva para elegir $\epsilon_{init}$ es basarlo en la cantidad de unidades en la red. Una buena elección de $\epsilon_{init}$ es $\epsilon_{init} = \frac{\sqrt{6}}{\sqrt{L_{in} - L_{out}}}$ , dónde $L_{in} = s_l$ y $L_{out} = s_{l+1}$ son el número de unidades en las capas adyacentes a $\Theta^{(l)}$ .

¿Por qué es la constante $\sqrt 6$ utilizado aquí? Por qué no $\sqrt 5$ , $\sqrt 7$ o $\sqrt {6.1}$ ?

machine-learning neural-networks random-generation

— Tom Hale
fuente

Creo que esta es la inicialización normalizada de Xavier (implementada en varios marcos de aprendizaje profundo, por ejemplo, Keras, Cafe, ...) desde Comprender la dificultad de entrenar redes neuronales de alimentación profunda por Xavier Glorot y Yoshua Bengio.

Véanse las ecuaciones 12, 15 y 16 en el documento vinculado: su objetivo es satisfacer la ecuación 12:

Var [W_{yo}] = \frac{2}{{norte}_{yo} + {norte}_{yo + 1}}

$\text{Var}[W_i] = \frac{2}{n_i + n_{i+1}}$

y la varianza de un RV uniforme en $[-\epsilon,\epsilon]$ es $\epsilon^2/3$ (la media es cero, pdf = $1/(2\epsilon)$ entonces la varianza $=\int_{-\epsilon}^{\epsilon}x^2 \frac{1}{2\epsilon}dx$

— seanv507
fuente

Hmm, entonces por qué usar

\sqrt{6}

$\sqrt 6$ en vez de

2

$2$ ?

— Tom Hale

Inserte épsilon en la fórmula para la varianza de la variable aleatoria uniforme en +/- x y ¿qué obtiene?

— seanv507

Doh! Ahora veo en las fórmulas (16) que

[- ϵ, ϵ]

$[-\epsilon, \epsilon]$ es usado De donde sacas

x^{2} / 3

$x^2 / 3$ de aunque?

— Tom Hale

explicación adicional para la varianza del RV uniforme ...

— seanv507