He leído un par de documentos sobre la inicialización del núcleo y muchos documentos mencionan que usan la regularización L2 del núcleo (a menudo con ).
¿Alguien hace algo diferente a inicializar el sesgo con cero constante y no regularizarlo?
Papeles de inicialización de kernel
- Mishkin y Matas: todo lo que necesitas es un buen inicio
- Xavier Glorot y Yoshua Bengio: Comprender la dificultad de entrenar redes neuronales de alimentación profunda
- He et al: Profundizando en los rectificadores: superando el rendimiento a nivel humano en la clasificación de ImageNet