¿Qué sucede cuando mezclo las funciones de activación?

Hay varias funciones de activación, como ReLU, sigmoid o . ¿Qué sucede cuando mezclo las funciones de activación? $\tanh$

Recientemente descubrí que Google ha desarrollado la función de activación Swish que es (x * sigmoide). Al alterar la función de activación, ¿puede aumentar la precisión en pequeños problemas de redes neuronales como el problema XOR?

— JSChang
fuente

La respuesta general al comportamiento de combinar funciones de activación comunes es que deben aplicarse las leyes del cálculo, específicamente el cálculo diferencial, los resultados deben obtenerse a través del experimento para asegurarse de las cualidades de la función ensamblada, y es probable que la complejidad adicional Aumentar el tiempo de cálculo. La excepción a dicho aumento será cuando la carga computacional de la combinación sea pequeña en comparación con las ventajas de convergencia que proporciona la combinación.

Esto parece ser cierto para Swish, el nombre dado a la función de activación definida como

f (x) = x S (β x),

$f(x) = x \, \mathbb{S}(\beta x) \; \text{,}$

donde es la función de activación de Swish y es la función sigmoidea. Tenga en cuenta que Swish no es estrictamente una combinación de funciones de activación. Se forma mediante la adición de un hiperparámetro dentro de la función sigmoide y una multiplicación de la entrada al resultado de la función sigmoide. $f()$ $\mathbb{S}$ $\beta$

No parece haber sido desarrollado por Google. El documento presentado originalmente de forma anónima (para revisión doble ciego como documento ICLR 2018), Buscando funciones de activación , fue escrito por Prajit Ramachandran, Barret Zoph y Quoc V. Le alrededor de 2017. Este es su reclamo.

Nuestros experimentos muestran que la función de activación mejor descubierta, ... Swish, ... tiende a funcionar mejor que ReLU en modelos más profundos en varios conjuntos de datos desafiantes.

Cualquier cambio en la función de activación a cualquier capa, excepto en el caso astronómicamente raro, afectará la precisión, la confiabilidad y la eficiencia computacional. Si el cambio es significativo no puede generalizarse. Es por eso que las nuevas ideas se prueban contra los conjuntos de datos utilizados tradicionalmente para medir la utilidad ¹ .

Combinar funciones de activación para formar nuevas funciones de activación no es común. Por ejemplo, AlexNet no los combina. ² . Sin embargo, es muy común usar diferentes funciones de activación en diferentes capas de un diseño de red único y efectivo.

Notas al pie

[1] Si estas tradiciones crean un sesgo es otra cuestión. Aquellos que siguen la teoría del análisis de casos de uso iniciada por el científico informático sueco Ivar Hjalmar Jacobson o 6 Sigma ideas dirían que estas pruebas son pruebas unitarias, no pruebas funcionales contra casos de uso del mundo real, y tienen un punto.

[2] Para corregir cualquier idea errónea que pueda surgir de otra respuesta, AlexNet, el nombre dado al enfoque descrito en ImageNet Classification with Deep Convolutional Neural Networks (2012) por Alex Krizhevsky, Ilya Sutskever y Geoffrey E. Hinton de la Universidad de Toronto no implica combinar funciones de activación para formar otras nuevas. Ellos escriben esto.

La salida de la última capa totalmente conectada se alimenta a un softmax de 1000 vías que produce una distribución sobre las 1000 etiquetas de clase.

...

La no linealidad ReLU se aplica a la salida de cada capa convolucional y completamente conectada. Las capas internas son ReLU puro y la capa de salida es Softmax.

También hay núcleos de convolución y capas de agrupación en la serie de capas del enfoque AlexNet utilizadas por ellos, y el diseño ha entrado en uso común desde que ganaron la competencia ImageNet en 2012. Otros enfoques han ganado concursos posteriores.

— Douglas Daseeco
fuente