En matemáticas, una función se considera lineal siempre que una función si para cada x e y en el dominio A tiene la siguiente propiedad: f ( x ) + f ( y ) = f ( x + y ) . Por definición, la ReLU es m a x ( 0 , x ) . Por lo tanto, si dividimos el dominio de ( - ∞ , 0 ] o [F: A → BXyUNF( x ) + f( y) = f( x + y)m a x ( 0 , x )( - ∞ , 0 ]. Por lo tanto, por definición, ReLU no es lineal. entonces la función es lineal. Sin embargo, es fácil ver que f ( - 1 ) + f ( 1 ) ≠ f ( 0 )[ 0 , ∞ )F( - 1 ) + f( 1 ) ≠ f( 0 )
Sin embargo, ReLU está tan cerca de ser lineal que a menudo confunde a las personas y se pregunta cómo puede usarse como un aproximador universal. En mi experiencia, la mejor manera de pensar en ellas es como las sumas de Riemann. Puede aproximar cualquier función continua con muchos rectángulos pequeños. Las activaciones de ReLU pueden producir muchos rectángulos pequeños. De hecho, en la práctica, ReLU puede crear formas bastante complicadas y aproximarse a muchos dominios complicados.
También tengo ganas de aclarar otro punto. Como se señaló en una respuesta anterior, las neuronas no mueren en Sigmoid, sino que desaparecen. La razón de esto es porque, como máximo, la derivada de la función sigmoidea es .25. Por lo tanto, después de tantas capas, terminas multiplicando estos gradientes y el producto de números muy pequeños menores que 1 tiende a llegar a cero muy rápidamente.
Por lo tanto, si está construyendo una red de aprendizaje profundo con muchas capas, sus funciones sigmoideas se estancarán bastante rápido y se volverán más o menos inútiles.
La clave es que la desaparición proviene de multiplicar los gradientes, no los gradientes mismos.