Ser más rápido o más bajo es un término relativo y debe entenderse en el contexto de lo que se compara. Entonces, para entender esto, primero debemos considerar cómo funciona el descenso de gradiente con otros tipos de la función de activación.
Configuración de ejemplo
n
z1=W1x+b1
a1=f(z1)
...
zn=Wnan−1+bn
y=f(zn)
f
Tanh y Sigmoid - Gradiente de fuga
ff′(x)∈(−1,1)x
yW1
dfdW1=dfdWndWndWn−1...dW2dW1
0<i<n
dXidXi−1=f′(Wi−1ai−2+bi−1)×ai−2∈(−1,1)
(−1,1)f′ai−2(−1,1)
dfdW1ndfdW1
RELU y neurona muerta
ai>0f
dXidXi−1=ai−2
dfdW1=a1a2a3...an−1
x>0x<0
Fugas RELU y ELU
x>0x<1
Cito el artículo original para la diferencia entre los dos.
Si bien las LReLU y PReLU también tienen valores negativos, no garantizan un estado de desactivación robusto al ruido. Las ELU se saturan a un valor negativo con entradas más pequeñas y, por lo tanto, disminuyen la variación y la información propagadas hacia adelante.
La explicación intuitiva es la siguiente. En ELU, cada vez que x se hizo lo suficientemente pequeño, el gradiente se volvió realmente pequeño y saturado (de la misma manera que sucede con Tanh y Sigmoid). El pequeño gradiente significa que el algoritmo de aprendizaje puede enfocarse en el ajuste de otros pesos sin preocuparse por la interactividad con las neuronas saturadas.
Considere un polinomio de grado 2 que se puede representar como una superficie lisa en un espacio tridimensional. Para encontrar el mínimo local, un algoritmo de descenso de gradiente necesitará considerar la inclinación tanto en la dirección x como en la dirección y. Si el gradiente es negativo tanto en la dirección x como en la dirección y, no está claro en qué dirección es mejor. Por lo tanto, es sensato elegir un camino en algún punto intermedio. Pero, si ya sabemos que todo es plano (gradientes cero) en la dirección x, entonces se vuelve obvio ir a la dirección y. O, en otras palabras, el espacio de búsqueda se vuelve mucho más pequeño.
nota especial
En el aprendizaje profundo, hay muchas afirmaciones sin suficiente evidencia empírica o comprensión profunda para respaldarlo. En el caso de ELU, si bien podría ser cierto que resulta en una convergencia más rápida para algunos conjuntos de datos, también podría ser cierto que hace que el algoritmo de aprendizaje permanezca en el máximo local para un conjunto de datos diferente. Simplemente no sabemos lo suficiente todavía.