1
Por qué ReLU es mejor que las otras funciones de activación
Aquí la respuesta se refiere a gradientes de desaparición y explosión que han estado en sigmoidfunciones de activación similares, pero supongo que Relutiene una desventaja y es su valor esperado. no hay limitación para la salida de Reluy, por lo tanto, su valor esperado no es cero. Recuerdo el tiempo …