2
Relu tiene 0 gradiente por definición, entonces ¿por qué desaparecer el gradiente no es un problema para x <0?
Por definición, Relu es max(0,f(x)). Luego de su gradiente se define como: 1 if x > 0 and 0 if x < 0. ¿No significa esto que el gradiente siempre es 0 (desaparece) cuando x <0? Entonces, ¿por qué decimos que Relu no sufre el problema de la desaparición del …