La función que propone tiene una singularidad siempre que la suma de los elementos sea cero.
Suponga que su vector es . Este vector tiene una suma de 0, por lo que la división no está definida. La función no es diferenciable aquí.[−1,13,23]
Además, si uno o más de los elementos del vector son negativos pero la suma no es cero, su resultado no es una probabilidad.
Suponga que su vector es . Esto tiene una suma de 1, por lo que la aplicación de su función da como resultado , que no es un vector de probabilidad porque tiene elementos negativos y elementos superiores a 1.[−1,0,2][−1,0,2]
Desde una perspectiva más amplia, podemos motivar la forma específica de la función softmax desde la perspectiva de extender la regresión logística binaria al caso de tres o más resultados categóricos.
Hacer las cosas como tomar valores absolutos o cuadrados, como se sugiere en los comentarios, medios que y tienen la misma probabilidad predicha; Esto significa que el modelo no está identificado . Por el contrario, es monotónico y positivo para todas las reales , por lo que el resultado de softmax es (1) un vector de probabilidad y (2) se identifica el modelo logístico multinomial.−xxexp ( x ) xexp(x)x