¿El teorema de aproximación universal para redes neuronales es válido para alguna función de activación?

8

¿El teorema de aproximación universal para redes neuronales es válido para cualquier función de activación (sigmoide, ReLU, Softmax, etc.) o se limita a las funciones sigmoideas?

Actualización: como señala shimao en los comentarios, no cumple absolutamente ninguna función. Entonces, ¿para qué clase de funciones de activación tiene?

neural-networks approximation

— Skander H.
fuente

1

Creo que es válido para todos los que enumeró, pero no es válido para ninguna función de activación arbitraria (considere f (x) = 0)

— shimao

Lea el documento de Cybenko (1989). La función debe ser compacta, es decir, debe definirse en subconjuntos compactos de R ^ n

— Snehanshu Saha

Si hay muchas discontinuidades, también se puede manejar agregando más capas ocultas. Funciona para SBAF también.

— Snehanshu Saha

Esto tiene poco sentido, porque cada función definida en

R^{n}

$\mathbb{R}^n$ se define en subconjuntos compactos de la misma!

— whuber

8

El artículo de wikipedia tiene una declaración formal.

Dejar $\varphi$ ser una función no constante, acotada y continua.

— Matthew Drury
fuente

8

Eso cubre sigmoide y softmax pero no ReLU. Según este documento, la propiedad también es válida para algunas funciones ilimitadas como ReLU y otras.

— jodag

4

Las redes de alimentación de múltiples capas son una referencia publicada que aborda el problema. Las funciones de activación polinómica no tienen la propiedad de aproximación universal.

La preimpresión NN con funciones de activación ilimitadas cubre muchas funciones de activación. Solo se ve en una sola capa oculta NN. Es pesado en el análisis de Fourier.

Destaco que la segunda referencia es una preimpresión porque no puedo garantizar su precisión. Leshno et alt 1993 es una publicación revisada.

— VictorZurkowski
fuente

3

El documento de 1991 de Kurt Hornik "Capacidades de aproximación de las redes de alimentación de múltiples capas" demuestra que las "redes de alimentación de múltiples capas estándar con tan solo una capa oculta y una función de activación arbitraria limitada y no constante son aproximadores universales con respecto a $L^P(\mu)$ criterios de rendimiento, para medidas arbitrarias de entorno de entrada finita $\mu$ , siempre que haya suficientes unidades ocultas disponibles. "En otras palabras, la hipótesis de que la función de activación es limitada y no constante es suficiente para aproximar casi cualquier función dado que podemos usar tantas unidades ocultas como queramos en la red neuronal. El documento debe estar disponible aquí: http://zmjones.com/static/statistical-learning/hornik-nn-1991.pdf

— matemático
fuente