Sé que esta es una publicación tardía, pero creo que todavía sería valioso proporcionar alguna justificación para aquellos que aterrizan aquí.
No estás completamente equivocado. Es arbitrario hasta cierto punto, pero quizás arbitrario es la palabra incorrecta. Es más como una elección de diseño. Dejame explicar.
Resulta que Softmax es en realidad la generalización de la función Sigmoide, que es una unidad de salida de Bernoulli (salida 0 o 1):
[ 1 + exp ( - z)]- 1
Pero de dónde viene la función Sigmoide, puede preguntar.
Bueno, resulta que muchas distribuciones de probabilidad diferentes, incluidas la distribución de Bernoulli, Poisson, gaussiana, etc., siguen algo llamado Modelo Lineal Generalizado (GLM). Es decir, se pueden expresar en términos de:
PAGS( y; η) = b ( y) exp [ηTT( y) - a ( η) ]
No cubriré cuáles son todos estos parámetros, pero ciertamente puede investigar esto.
Observe el siguiente ejemplo de cómo una distribución de Bernoulli está en la familia GLM:
PAGS( y= 1 ) = ϕPAGS( y= 0 ) = 1 - ϕPAGS( y) =ϕy( 1 - ϕ)1 - y= exp ( ylog ( ϕ ) + ( 1 - y) log ( 1 - ϕ ) )= exp ( ylog ( ϕ ) + log ( 1 - ϕ ) - ylog ( 1 - ϕ ) )= exp ( ylog (ϕ1 - ϕ) + log ( 1 - ϕ ) )
Puedes ver que en este caso,
b ( y) = 1T( y) = yη= log (ϕ1 - ϕ)a ( η) = - log ( 1 - ϕ )
Note lo que sucede cuando resolvemos ϕ en términos de η:
η= log (ϕ1 - ϕ)miη=ϕ1 - ϕmi- η=1 - ϕϕ=1ϕ- 1mi- η+ 1 =1ϕϕ = [ exp ( - η) + 1]- 1
Entonces para conseguir ϕ = P( y= 1 ), tomamos el sigmoide de η. La elección del diseño entra en juego cuando asumimos queη=wTX, dónde w son sus pesos y X son sus datos, los cuales suponemos que son ∈Rnorte. Al hacer esta suposición, podemos encajarw para aproximar ϕ.
Si tuviera que pasar por este mismo proceso para una distribución Multinoulli, terminaría derivando la función softmax.