Registro de probabilidades en referencia al clasificador softmax

En este https://cs231n.github.io/neural-networks-case-study/ ¿por qué menciona que "el clasificador Softmax interpreta que cada elemento de ff contiene las probabilidades de registro (no normalizadas) de las tres clases".

Entiendo por qué no está normalizado, pero no por qué es un registro. ¿Qué significa una probabilidad logarítmica?

¿Por qué no solo decir probabilidades no normalizadas?

— Abhishek Bhatia
fuente

Hay una diferencia entre las probabilidades y las probabilidades de registro. Si la probabilidad de un evento es 0.36787944117, que resulta ser $1/e$ , entonces la probabilidad de registro es -1.

Por lo tanto, si se le dan un montón de probabilidades de registro no normalizadas y desea recuperar las probabilidades originales, primero debe tomar el exponente de todos sus números, lo que le brinda probabilidades no normalizadas. A continuación, los normaliza como de costumbre. Matemáticamente, esto es

p_{j} = \frac{e^{z_{j}}}{\sum_{i} e^{z_{i}}}

$p_j = \frac{e^{z_j}}{\sum_i e^{z_i}}$

dónde $p_j$ es la probabilidad de $j$ th clase y $z_i$ son las entradas al clasificador softmax.

La pregunta obvia es por qué molestarse en hacer exponentes. ¿Por qué no usar

p_{j} = \frac{z_{j}}{\sum_{i} z_{i}}

$p_j = \frac{z_j}{\sum_i z_i}$

¿en lugar?

Una razón para esto es porque el softmax juega muy bien con la pérdida de entropía cruzada, que es $-E_q[\log p]$ , dónde $q$ es la verdadera distribución (las etiquetas). Intuitivamente, el registro se cancela con el exponente, lo cual es muy útil para nosotros.

Resulta que si tomas el gradiente de la pérdida de entropía cruzada con respecto a las entradas al clasificador $\vec z$ , usted obtiene

\vec{p} - 1_{j}

$\vec p - 1_j$

cuando la etiqueta de verdad fundamental está en clase $j$ y $1_j$ es el correspondiente vector de un solo calor. Esta es una expresión muy agradable y lleva a una fácil interpretación y optimización.

Por otro lado, si intenta utilizar probabilidades no normalizadas en lugar de probabilidades de registro no normalizadas, terminará siendo el gradiente

\frac{1}{\sum_{i} z_{i}} - {\vec{1}}_{j}^{T} \frac{1}{z}

$\frac{1}{\sum_i z_i} - \vec 1_j^T\frac{1}{z}$

Esta expresión es mucho menos agradable en términos de interpretabilidad y también puede ver posibles problemas numéricos cuando $z$ está cerca de 0.

Otra razón para usar las probabilidades de registro puede verse en la regresión logística, que es simplemente un caso especial de clasificación softmax. La forma de la función sigmoidea funciona bien porque, intuitivamente, a medida que se mueve a través del espacio de características, la probabilidad de clases no varía linealmente con las entradas. La curva aguda en la función sigmoidea, que enfatiza el límite agudo entre dos clases, es realmente el resultado del término exponencial que estamos aplicando a las entradas de softmax.

— shimao
fuente

¿Dónde está el registro en la expresión de probabilidades de registro no normalizadas?

— Abhishek Bhatia

El registro proviene del hecho de que

\log p_{j} \propto z_{j}

$\log p_j \propto z_j$ . El logaritmo de las probabilidades es la probabilidad logarítmica. Como en mi publicación, iba en la dirección opuesta: registro de probabilidades a probabilidades, usé exp en lugar de log.

— shimao