Aquí la respuesta se refiere a gradientes de desaparición y explosión que han estado en sigmoid
funciones de activación similares, pero supongo que Relu
tiene una desventaja y es su valor esperado. no hay limitación para la salida de Relu
y, por lo tanto, su valor esperado no es cero. Recuerdo el tiempo antes de que la popularidad de Relu
eso tanh
fuera la más popular entre los expertos en aprendizaje automático en lugar de sigmoid
. La razón fue que el valor esperado de la tanh
era igual a cero y ayudó a aprender en capas más profundas a ser más rápido en una red neuronal. Relu
no tiene esta característica, pero por qué funciona tan bien si dejamos de lado su ventaja derivada. Además, supongo que la derivada también puede verse afectada. Porque las activaciones (salida deRelu
) están involucrados para calcular las reglas de actualización.
CNN
normalización típica la salida de la relu
no es común? Al menos nunca he visto eso.