Elijo la función de activación para la capa de salida en función de la salida que necesito y las propiedades de la función de activación que conozco. Por ejemplo, elijo la función sigmoide cuando trato con probabilidades, una ReLU cuando trato con valores positivos y una función lineal cuando trato con valores generales.
En capas ocultas, uso un ReLU con fugas para evitar las neuronas muertas en lugar del ReLU y el tanh en lugar del sigmoide. Por supuesto, no uso una función lineal en unidades ocultas.
Sin embargo, la elección de ellos en la capa oculta se debe principalmente a prueba y error.
¿Hay alguna regla general de qué función de activación es probable que funcione bien en algunas situaciones? Tome el término situaciones lo más general posible: podría referirse a la profundidad de la capa, a la profundidad del NN, al número de neuronas para esa capa, al optimizador que elegimos, al número de características de entrada de esa capa, a la aplicación de este NN, etc.
En su respuesta , cantordust se refiere a otras funciones de activación que no mencioné, como ELU y SELU. Esta información es más que bienvenida. Sin embargo, cuantas más funciones de activación descubro, más me confundo en la elección de la función para usar en capas ocultas. Y no creo que lanzar una moneda sea una buena forma de elegir una función de activación.