2
¿Cuándo usar (Él o Glorot) la inicialización normal sobre init uniforme? ¿Y cuáles son sus efectos con Batch Normalization?
Sabía que Residual Network (ResNet) hizo popular la inicialización normal. En ResNet, se usa la inicialización normal de He , mientras que la primera capa usa la inicialización uniforme de He. He revisado el papel de ResNet y el documento "Profundizando en los rectificadores" (papel de inicialización de He), pero …