¿El teorema de aproximación universal para redes neuronales es válido para cualquier función de activación (sigmoide, ReLU, Softmax, etc.) o se limita a las funciones sigmoideas?
Actualización: como señala shimao en los comentarios, no cumple absolutamente ninguna función. Entonces, ¿para qué clase de funciones de activación tiene?