He leído en otra parte que la elección de una función de activación de capa oculta en un NN debe basarse en la necesidad de uno , es decir, si necesita valores en el rango de -1 a 1, use tanh y sigmoid para el rango de 0 a 1.
Mi pregunta es ¿cómo se sabe cuál es la necesidad de uno ? ¿Se basa en el rango de la capa de entrada? ¿O el problema de necesidad / dominio es específico y se requiere la experiencia / juicio de uno para tomar esta decisión? ¿O es simplemente "usar lo que da el mejor error de entrenamiento mínimo con validación cruzada?"
1 + (1 / exp(-sum))
. Hace que la necesidad sea muy difícil de entender sin probar ambos en cada conjunto de datos. La necesidad tal como la describe aquí está vinculada a la relación real que se está aprendiendo, es decir, un conjunto de datos binarios aprenderá más rápido o no se activarán de ninguna manera.