Esta pregunta es muy interesante. No sé la razón exacta pero creo que la siguiente razón podría usarse para explicar el uso de la función exponencial. Esta publicación está inspirada en la mecánica estadística y el principio de máxima entropía.
Explicaré esto usando un ejemplo con imágenes, que están constituidas por imágenes de la clase , imágenes de la clase , ..., y imágenes de la clase . Luego asumimos que nuestra red neuronal pudo aplicar una transformación no lineal en nuestras imágenes, de modo que podemos asignar un 'nivel de energía' a todas las clases. Suponemos que esta energía está en una escala no lineal que nos permite separar linealmente las imágenes.Nn1C1n2C2nKCKEk
La energía media está relacionada con las otras energías por la siguiente relación
E¯EkNE¯=∑k=1KnkEk.(∗)
Al mismo tiempo, vemos que la cantidad total de imágenes se puede calcular como la siguiente suma
N=∑k=1Knk.(∗∗)
La idea principal del principio de máxima entropía es que el número de imágenes en las clases correspondientes se distribuye de tal manera que se maximice el número de combinaciones posibles de una distribución de energía dada. Para decirlo de manera más simple, el sistema no entrará en un estado en el que solo tenemos la clase tampoco entrará en un estado en el que tengamos la misma cantidad de imágenes en cada clase. Pero ¿por qué es esto así? Si todas las imágenes estuvieran en una clase, el sistema tendría una entropía muy baja. El segundo caso también sería una situación muy poco natural. Es más probable que tengamos más imágenes con energía moderada y menos imágenes con energía muy alta y muy baja.n1
La entropía aumenta con el número de combinaciones en las que podemos dividir las imágenes en las clases de imagen , , ..., con la energía correspondiente. Este número de combinaciones viene dado por el coeficiente multinomialNn1n2nK
(N!n1!,n2!,…,nK!)=N!∏Kk=1nk!.
Intentaremos maximizar este número asumiendo que tenemos infinitas imágenes . Pero su maximización también tiene restricciones de igualdad y . Este tipo de optimización se llama optimización restringida. Podemos resolver este problema analíticamente utilizando el método de multiplicadores de Lagrange. Introducimos los multiplicadores de Lagrange y para las restricciones de igualdad y presentamos la función Lagrange .N→∞(∗)(∗∗)βαL(n1,n2,…,nk;α,β)
L(n1,n2,…,nk;α,β)=N!∏Kk=1nk!+β[∑k=1KnkEk−NE¯]+α[N−∑k=1Knk]
Como asumimos también podemos suponer y usar la aproximación de Stirling para el factorialN→∞nk→∞
lnn!=nlnn−n+O(lnn).
Tenga en cuenta que esta aproximación (los dos primeros términos) es solo asintótica, ¡no significa que esta aproximación convergerá apara .lnn!n→∞
La derivada parcial de la función Lagrange con respecto a dará como resultadonk~
∂L∂nk~=−lnnk~−1−α+βEk~.
Si establecemos esta derivada parcial en cero, podemos encontrar
nk~=exp(βEk~)exp(1+α).(∗∗∗)
Si volvemos a poner esto en podemos obtener(∗∗)
exp(1+α)=1N∑k=1Kexp(βEk).
Si volvemos a poner esto en obtenemos algo que debería recordarnos la función softmax(∗∗∗)
nk~=exp(βEk~)1N∑Kk=1exp(βEk).
Si definimos como la probabilidad de la clase por obtendremos algo que es realmente similar a la función softmaxnk~/NCk~pk~
pk~=exp(βEk~)∑Kk=1exp(βEk).
Por lo tanto, esto nos muestra que la función softmax es la función que maximiza la entropía en la distribución de imágenes. Desde este punto, tiene sentido usar esto como la distribución de imágenes. Si establecemos obtenemos exactamente la definición de la función softmax para la salida .βEk~=wTkxkth