Muchas funciones de activación en redes neuronales (sigmoide, tanh, softmax) son monótonas, continuas y diferenciables (excepto que puede haber un par de puntos, donde la derivada no existe).
Entiendo la razón de la continuidad y la diferenciabilidad, pero realmente no puedo entender una razón para la monotonisidad.