2
¿Cuál es la diferencia entre el inicializador de escala de varianza y el inicializador xavier?
En aplicación de la Tensorflow ResNet , encuentro que utilizan la variación de escala inicializador, también encuentro Xavier inicializador es popular. No tengo mucha experiencia en esto, ¿qué es mejor en la práctica?