La combinación de ReLU, la variante con fugas hiperparamétrica 1 y la variante con parametrización dinámica durante el aprendizaje confunde dos cosas distintas:
- La comparación entre ReLU con la variante con fugas está estrechamente relacionada con la necesidad, en el caso particular de ML en cuestión, de evitar la saturación: la saturación es la pérdida de señal para el gradiente cero 2 o el predominio del ruido caótico que surge de lo digital redondeo 3 .
- La comparación entre la activación dinámica de entrenamiento (llamada paramétrica en la literatura) y la activación estática de entrenamiento debe basarse en si las características de activación no lineales o no uniformes tienen algún valor relacionado con la tasa de convergencia 4 .
La razón por la cual ReLU nunca es paramétrica es porque hacerlo sería redundante. En el dominio negativo, es el cero constante. En el dominio no negativo, su derivada es constante. Dado que el vector de entrada de activación ya está atenuado con un producto de matriz de vectores (donde la matriz, el cubo o el hipercubo contiene los parámetros de atenuación) no hay un propósito útil al agregar un parámetro para variar la derivada constante para el dominio no negativo .
Cuando hay una curvatura en la activación, ya no es cierto que todos los coeficientes de activación son redundantes como parámetros. Sus valores pueden alterar considerablemente el proceso de entrenamiento y, por lo tanto, la velocidad y confiabilidad de la convergencia.
Para redes sustancialmente profundas, la redundancia reaparece, y hay evidencia de esto, tanto en teoría como en práctica en la literatura.
- En términos algebraicos, la disparidad entre ReLU y las activaciones paramétricamente dinámicas derivadas de ella se aproxima a cero a medida que la profundidad (en número de capas) se acerca al infinito.
- En términos descriptivos, ReLU puede aproximar con precisión las funciones con curvatura 5 si se le da un número suficiente de capas para hacerlo.
Es por eso que la variedad ELU, que es ventajosa para evitar los problemas de saturación mencionados anteriormente para redes menos profundas, no se usa para las más profundas.
Entonces uno debe decidir dos cosas.
- Si la activación paramétrica es útil a menudo se basa en la experimentación con varias muestras de una población estadística. Pero no hay necesidad de experimentar en absoluto si la profundidad de la capa es alta.
- Si la variante con fugas tiene valor tiene mucho que ver con los rangos numéricos encontrados durante la propagación inversa. Si el gradiente se vuelve muy pequeño durante la propagación de la espalda en cualquier punto durante el entrenamiento, una porción constante de la curva de activación puede ser problemática. En tal caso, una de las funciones suaves o RelU con fugas con sus dos pendientes distintas de cero puede proporcionar una solución adecuada.
En resumen, la elección nunca es una elección de conveniencia.
Notas al pie
[1] Los hiperparámetros son parámetros que afectan la señalización a través de la capa que no forman parte de la atenuación de las entradas para esa capa. Los pesos de atenuación son parámetros. Cualquier otra parametrización está en el conjunto de hiperparámetros. Esto puede incluir la velocidad de aprendizaje, la amortiguación de altas frecuencias en la propagación hacia atrás y una amplia variedad de otros controles de aprendizaje que se configuran para toda la capa, si no para toda la red.
[2] Si el gradiente es cero, entonces no puede haber ningún ajuste inteligente de los parámetros porque la dirección del ajuste es desconocida y su magnitud debe ser cero. El aprendizaje se detiene.
[3] Si el ruido caótico, que puede surgir a medida que la CPU redondea valores extremadamente pequeños a su representación digital más cercana, domina la señal de corrección que está destinada a propagarse de nuevo a las capas, entonces la corrección se vuelve absurda y el aprendizaje se detiene.
[4] La tasa de convergencia es una medida de la velocidad (ya sea en relación con microsegundos o con relación al índice de iteración del algoritmo) en la que el resultado del aprendizaje (comportamiento del sistema) se acerca a lo que se considera suficientemente bueno. Eso suele ser una proximidad específica a algunos criterios formales de aceptación para la convergencia (aprendizaje).
[5] Las funciones con curvatura son aquellas que no se visualizan como rectas o planas. Una parábola tiene curvatura. Una línea recta no. La superficie de un huevo tiene curvatura. Un plano perfecto no lo hace. Matemáticamente, si alguno de los elementos del hessiano de la función no es cero, la función tiene curvatura.