¿Debería la función de activación ser monotónica en las redes neuronales?

Muchas funciones de activación en redes neuronales (sigmoide, tanh, softmax) son monótonas, continuas y diferenciables (excepto que puede haber un par de puntos, donde la derivada no existe).

Entiendo la razón de la continuidad y la diferenciabilidad, pero realmente no puedo entender una razón para la monotonisidad.

machine-learning neural-networks

— Salvador Dalí
fuente

Durante la fase de entrenamiento, la propagación hacia atrás informa a cada neurona cuánto debería influir en cada neurona en la siguiente capa. Si la función de activación no es monotónica, entonces aumentar el peso de la neurona podría causar que tenga menos influencia, lo contrario de lo que se pretendía. El resultado sería un comportamiento choático durante el entrenamiento, con la red poco probable de converger a un estado que produzca un clasificador preciso.

— Kyle Jones
fuente

Solo para aclarar: el descenso de gradiente encuentra un mínimo local incluso con funciones de activación monótonas. Puede que solo tome más tiempo.

— Martin Thoma