La normalización por lotes y ReLU son soluciones al problema del gradiente de fuga. Si estamos usando la normalización por lotes, ¿deberíamos usar sigmoides? ¿O hay características de ReLU que hacen que valga la pena incluso cuando se usa batchnorm?
Supongo que la normalización realizada en batchnorm enviará cero activaciones negativas. ¿Eso significa que batchnorm resuelve el problema de "ReLU muerto"?
Pero la naturaleza continua de tanh y logística sigue siendo atractiva. Si estoy usando batchnorm, ¿funcionará mejor que ReLU?
Estoy seguro de que la respuesta depende . Entonces, ¿qué ha funcionado en su experiencia y cuáles son las características más destacadas de su aplicación?