Hay una diferencia entre las probabilidades y las probabilidades de registro. Si la probabilidad de un evento es 0.36787944117, que resulta ser1/e, entonces la probabilidad de registro es -1.
Por lo tanto, si se le dan un montón de probabilidades de registro no normalizadas y desea recuperar las probabilidades originales, primero debe tomar el exponente de todos sus números, lo que le brinda probabilidades no normalizadas. A continuación, los normaliza como de costumbre. Matemáticamente, esto es
pj=ezj∑iezi
dónde pj es la probabilidad de jth clase y zi son las entradas al clasificador softmax.
La pregunta obvia es por qué molestarse en hacer exponentes. ¿Por qué no usar
pj=zj∑izi
¿en lugar?
Una razón para esto es porque el softmax juega muy bien con la pérdida de entropía cruzada, que es −Eq[logp], dónde qes la verdadera distribución (las etiquetas). Intuitivamente, el registro se cancela con el exponente, lo cual es muy útil para nosotros.
Resulta que si tomas el gradiente de la pérdida de entropía cruzada con respecto a las entradas al clasificador z⃗ , usted obtiene
p⃗ −1j
cuando la etiqueta de verdad fundamental está en clase j y 1jes el correspondiente vector de un solo calor. Esta es una expresión muy agradable y lleva a una fácil interpretación y optimización.
Por otro lado, si intenta utilizar probabilidades no normalizadas en lugar de probabilidades de registro no normalizadas, terminará siendo el gradiente
1∑izi−1⃗ Tj1z
Esta expresión es mucho menos agradable en términos de interpretabilidad y también puede ver posibles problemas numéricos cuando z está cerca de 0.
Otra razón para usar las probabilidades de registro puede verse en la regresión logística, que es simplemente un caso especial de clasificación softmax. La forma de la función sigmoidea funciona bien porque, intuitivamente, a medida que se mueve a través del espacio de características, la probabilidad de clases no varía linealmente con las entradas. La curva aguda en la función sigmoidea, que enfatiza el límite agudo entre dos clases, es realmente el resultado del término exponencial que estamos aplicando a las entradas de softmax.