Actualmente me estoy preparando para un examen en redes neuronales. En varios protocolos de exámenes anteriores, leí que las funciones de activación de las neuronas (en perceptrones multicapa) tienen que ser monótonas.
Entiendo que las funciones de activación deben ser diferenciables, tener una derivada que no sea 0 en la mayoría de los puntos y no ser lineales. No entiendo por qué ser monótono es importante / útil.
Conozco las siguientes funciones de activación y que son monótonas:
- ReLU
- Sigmoideo
- Tanh
- Softmax: no estoy seguro de si la definición de monotonicidad es aplicable para las funciones con
- Softplus
- (Identidad)
Sin embargo, todavía no puedo ver ninguna razón por la cual, por ejemplo, .
¿Por qué las funciones de activación tienen que ser monótonas?
(Pregunta secundaria relacionada: ¿hay alguna razón por la cual la función logaritmo / exponencial no se usa como una función de activación?)