Por lo tanto, actualmente las funciones de activación más utilizadas son las de Re-Lu. Entonces respondí a esta pregunta ¿Cuál es el propósito de una función de activación en Redes Neuronales? y mientras escribía la respuesta me llamó la atención, ¿cómo puede exactamente la función no lineal aproximada de Re-Lu?
Por definición matemática pura, claro, es una función no lineal debido a la curva cerrada, pero si nos limitamos a la porción positiva o negativa del eje x solamente, entonces es lineal en esas regiones. Digamos que también tomamos todo el eje x, entonces también es un poco lineal (no en sentido matemático estricto) en el sentido de que no puede aproximar satisfactoriamente funciones curvilíneas como onda sinusoidal ( 0 --> 90
) con una capa oculta de un solo nodo como es posible por un sigmoide función de activación
Entonces, ¿cuál es la intuición detrás del hecho de que los Re-Lu se usan en los NN, lo que brinda un rendimiento satisfactorio (no estoy preguntando el propósito de los Re-Lu) a pesar de que son algo lineales? ¿O a veces se lanzan funciones no lineales como sigmoide y tanh en el medio de la red?
EDITAR: Según el comentario de @ Eka, Re-Lu deriva su capacidad de la discontinuidad que actúa en las capas profundas de la red neuronal. ¿Significa esto que los Re-Lu son buenos siempre que lo usemos en Deep NN y no en un NN superficial?
max(0,x)
actuar en capas profundas de la red neuronal. Hay una investigación de openai en la que calcularon funciones no lineales usando redes lineales profundas. Aquí está el enlace blog.openai.com/nonlinear-computation-in-linear-networks