Puede que llegue tarde a la fiesta, pero parece que hay algunas cosas que deben aclararse aquí.
En primer lugar: la función de activación g(x) en la capa de salida a menudo depende de su función de costo . Esto se hace para hacer la derivada ∂C∂z de la función de costoCcon respecto a las entradaszen la última capa fácil de calcular.
Como ejemplo , podríamos usar la pérdida de error cuadrática media C(y,g(z))=12(y−g(z))2en una configuración de regresión. Al establecerg(x)=x(función de activación lineal), encontramos la derivada
∂C(y,g(z))∂z=∂C(y,g(z))∂g(z)⋅∂g(z)∂z=∂∂g(z)(12(y−g(z))2)⋅∂∂z(z)=−(y−g(z))⋅1=g(z)−y
Obtiene la misma expresión fácil para∂C∂z si combina la pérdida de entropía cruzada con las funciones de activación sigmoide o softmax logísticas.
Esta es la razón por la cual las activaciones lineales a menudo se usan para regresión y las activaciones logísticas / softmax para la clasificación binaria / multi-clase. Sin embargo, nada le impide probar diferentes combinaciones. Aunque la expresión para ∂C∂z probablemente no será tan agradable, no implica que su función de activación se desempeñe peor.
En segundo lugar, me gustaría agregar que hay muchas funciones de activación que se pueden usar para las capas ocultas. Se ha comprobado que los sigmoides (como la función logística y la tangente hiperbólica) funcionan bien, pero según lo indicado por Jatin , estos sufren gradientes que desaparecen cuando sus redes se vuelven demasiado profundas. En ese caso, las ReLU se han vuelto populares. Sin embargo, me gustaría enfatizar que hay muchas más funciones de activación disponibles y que diferentes investigadores continúan buscando nuevas (por ejemplo, Unidades Lineales Exponenciales (ELU), Unidades Lineales de Error Gaussiano (GELU), ...) con diferentes / mejores propiedades
Para concluir: cuando busque las mejores funciones de activación, sea creativo. Pruebe diferentes cosas y vea qué combinaciones conducen al mejor rendimiento.
Anexo: Para más pares de funciones de pérdida y activaciones, probablemente desee buscar funciones de enlace (canónicas)