Dos funciones de activación comunes utilizadas en el aprendizaje profundo son la función tangente hiperbólica y la función de activación sigmoidea. Entiendo que la tangente hiperbólica es solo un cambio de escala y traducción de la función sigmoidea:
.
¿Existe una diferencia significativa entre estas dos funciones de activación y, en particular, cuándo es preferible una a la otra ?
Me doy cuenta de que en algunos casos (como cuando se estiman las probabilidades) las salidas en el rango de son más convenientes que las salidas que van desde . Quiero saber si hay otras diferencias además de la conveniencia que distinguen las dos funciones de activación.