F( x ) = max ( 0 , x ) .
Una forma en que las ReLU mejoran las redes neuronales es al acelerar el entrenamiento. El cálculo del gradiente es muy simple (0 o 1 dependiendo del signo de ). Además, el paso computacional de un ReLU es fácil: cualquier elemento negativo se establece en 0.0, sin exponenciales, sin operaciones de multiplicación o división.X
Los gradientes de las redes tangentes logísticas e hiperbólicas son más pequeñas que la parte positiva de la ReLU. Esto significa que la parte positiva se actualiza más rápidamente a medida que avanza la capacitación. Sin embargo, esto tiene un costo. El gradiente 0 en el lado izquierdo tiene su propio problema, llamado "neuronas muertas", en el que una actualización de gradiente establece los valores entrantes en una ReLU de modo que la salida sea siempre cero; Las unidades ReLU modificadas como ELU (o Leaky ReLU, o PReLU, etc.) pueden mejorar esto.
rereXReLU ( x ) = 1 ∀ x > 0 . Por el contrario, el gradiente de una unidad sigmoidea es como máximo ; por otro lado, mejores resultados para las entradas en una región cercana a 0, ya que (aproximadamente).0.25tanh0.25 < dreXtanh( x ) ≤ 1 ∀ x ∈ [ - 1.31 , 1.31 ]