Definición de la función softmax

Esta pregunta sigue en stats.stackexchange.com/q/233658

El modelo de regresión logística para las clases {0, 1} es

P (y = 1 | x) = \frac{\exp (w^{T} x)}{1 + \exp (w^{T} x)} P (y = 0 | x) = \frac{1}{1 + \exp (w^{T} x)}

$\mathbb{P} (y = 1 \;|\; x) = \frac{\exp(w^T x)}{1 + \exp(w^T x)} \\ \mathbb{P} (y = 0 \;|\; x) = \frac{1}{1 + \exp(w^T x)}$

Claramente, esas probabilidades suman 1. Al establecer también podríamos definir la regresión logística como $w = \beta_1 - \beta_0$

P (y = c | x) = \frac{\exp (β_{c}^{T} x)}{\exp (β_{0}^{T} x) + \exp (β_{1}^{T} x)} \forall c \in {0, 1}

$\mathbb{P} (y = c \;|\; x) = \frac{\exp(\beta_c^T x)}{\exp(\beta_0^T x) + \exp(\beta_1^T x)} \quad \forall \; c \in \{0, 1\}$

Sin embargo, la segunda definición rara vez se usa porque los coeficientes y no son únicos. En otras palabras, el modelo no es identificable, al igual que la regresión lineal con dos variables que son múltiplos entre sí. $\beta_0$ $\beta_1$

Pregunta

En el aprendizaje automático, ¿por qué el modelo de regresión softmax para las clases {0, 1, ..., K - 1} generalmente se define de la siguiente manera?

P (y = c | x) = \frac{\exp (β_{c}^{T} x)}{\exp (β_{0}^{T} x) + \dots + \exp (β_{K - 1}^{T} x)} \forall c \in {0, \dots, K - 1}

$\mathbb{P} (y = c \;|\; x) = \frac{\exp(\beta_c^T x)}{\exp(\beta_0^T x) + \dots + \exp(\beta_{K-1}^T x)} \quad \forall \; c \in \{0, \dots, K-1\}$

¿No debería ser en cambio

\begin{aligned} P (y = c | x) & = \frac{\exp (w_{c}^{T} x)}{1 + \exp (w_{1}^{T} x) + \dots + \exp (w_{K - 1}^{T} x)} \forall c \in {1, \dots, K - 1} \\ P (y = 0 | x) & = \frac{1}{1 + \exp (w_{1}^{T} x) + \dots + \exp (w_{K - 1}^{T} x)} \end{aligned}

$\begin{align*} \mathbb{P} (y = c \;|\; x) &= \frac{\exp(w_c^T x)}{1 + \exp(w_1^T x) + \dots + \exp(w_{K-1}^T x)} \quad \forall \; c \in \{1, \dots, K-1\} \\ \mathbb{P} (y = 0 \;|\; x) &= \frac{1}{1 + \exp(w_1^T x) + \dots + \exp(w_{K-1}^T x)} \end{align*}$

Nota al margen: en estadística, la regresión softmax se denomina regresión logística multinomial y las clases son {1, ..., K}. Encuentro esto un poco incómodo porque cuando K = 2, las clases son {1, 2} en lugar de {0, 1}, por lo que no es exactamente una generalización de la regresión logística.

— agricultor
fuente

¿Suele definirse de esa manera? ¿Puedes señalar una referencia?

— The Laconic

@TheLaconic Consulte la definición de softmax en scikit-learn.org/stable/modules/neural_networks_supervised.html y www.tensorflow.org/versions/r1.1/get_started/mnist/beginners

— agricultor

OKAY. Pregunté porque nunca había visto modelos de regresión MNL definidos de esta manera. Pero aparentemente es "habitual" en el contexto de las redes neuronales, y ahora tengo la misma pregunta que tú.

— The Laconic

No estoy seguro de cómo responder a una pregunta de "no debería ser X". La definición dada es diferenciable y define una distribución de probabilidad (sumas a 1). Parece que esas son las partes importantes, entonces ¿por qué no debería ser eso en lugar de lo otro?

— kbrose

@kbrose debido a la falta de identificabilidad

— Taylor

Sí, tiene razón en que hay una falta de identificabilidad a menos que uno de los vectores coeficientes sea fijo. Hay algunas razones que no mencionan esto. No puedo hablar de por qué omiten este detalle, pero aquí hay una explicación de qué es y cómo solucionarlo.

Descripción

Digamos que tiene observaciones y predictores , donde va de a denota el número / índice de observación. Necesitará estimar los vectores de coeficiente dimensional . $y_i \in \{0, 1, 2, \ldots, K-1\}$ $\mathbf{x}_i^\intercal \in \mathbb{R}^p$ $i$ $1$ $n$ $K$ $p$ $\boldsymbol{\beta}^0, \boldsymbol{\beta}^1, \ldots, \boldsymbol{\beta}^{K-1}$

La función softmax se define como que tiene buenas propiedades como la diferenciabilidad, suma , etc.

softmax (z)_{i} = \frac{\exp (z_{i})}{\sum_{l = 0}^{K - 1} \exp (z_{l})},

$\text{softmax}(\mathbf{z})_i = \frac{\exp(z_i)}{\sum_{l=0}^{K-1}\exp(z_l)},$

1

$1$

La regresión logística multinomial utiliza la función softmax para cada observación en el vector $i$

[\begin{matrix} x_{i}^{⊺} β^{0} \\ x_{i}^{⊺} β^{1} \\ ⋮ \\ x_{i}^{⊺} β^{K - 1}, \end{matrix}]

$\begin{bmatrix} \mathbf{x}_i^\intercal \boldsymbol{\beta}^0 \\ \mathbf{x}_i^\intercal \boldsymbol{\beta}^1 \\ \vdots \\ \mathbf{x}_i^\intercal \boldsymbol{\beta}^{K-1}, \end{bmatrix}$

lo que significa

[\begin{matrix} P (y_{i} = 0) \\ P (y_{i} = 1) \\ ⋮ \\ P (y_{i} = K - 1) \end{matrix}] = [\begin{matrix} \frac{\exp [x_{i}^{⊺} β^{0}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \\ \frac{\exp [x_{i}^{⊺} β^{1}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \\ ⋮ \\ \frac{\exp [x_{i}^{⊺} β^{K - 1}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \end{matrix}] .

$\begin{bmatrix} P(y_i = 0) \\ P(y_i = 1) \\ \vdots \\ P(y_i = K-1) \end{bmatrix} = \begin{bmatrix} \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^0] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \\ \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^1] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \\ \vdots \\ \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^{K-1}] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \end{bmatrix}.$

El problema

Sin embargo, la probabilidad no es identificable porque múltiples colecciones de parámetros darán la misma probabilidad. Por ejemplo, cambiar todos los vectores de coeficientes por el mismo vector producirá la misma probabilidad. Esto se puede ver si multiplica cada numerador y denominador de cada elemento del vector por una constante , nada cambia: $\mathbf{c}$ $\exp[-\mathbf{x}_i^\intercal \mathbf{c}]$

[\begin{matrix} \frac{\exp [x_{i}^{⊺} β^{0}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \\ \frac{\exp [x_{i}^{⊺} β^{1}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \\ ⋮ \\ \frac{\exp [x_{i}^{⊺} β^{K - 1}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \end{matrix}] = [\begin{matrix} \frac{\exp [x_{i}^{⊺} (β^{0} - c)]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} (β^{k} - c)]} \\ \frac{\exp [x_{i}^{⊺} (β^{1} - c)]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} (β^{k} - c)]} \\ ⋮ \\ \frac{\exp [x_{i}^{⊺} (β^{K - 1} - c)]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} (β^{k} - c)]} \end{matrix}] .

$\begin{bmatrix} \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^0] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \\ \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^1] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \\ \vdots \\ \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^{K-1}] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \end{bmatrix} = \begin{bmatrix} \frac{\exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^0-\mathbf{c})] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^k-\mathbf{c})] } \\ \frac{\exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^1-\mathbf{c})] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^k-\mathbf{c})] } \\ \vdots \\ \frac{\exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^{K-1} - \mathbf{c})] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^k -\mathbf{c}) ] } \end{bmatrix}.$

Arreglando lo

La forma de solucionar esto es restringir los parámetros. Arreglar uno de ellos conducirá a la identificación, porque ya no se permitirá cambiarlos.

Hay dos opciones comunes:

set , que significa (usted menciona este), y $\mathbf{c} = \boldsymbol{\beta}^0$ $\boldsymbol{\beta}^0 = \mathbf{0}$
set , que significa . $\mathbf{c} = \boldsymbol{\beta}^{K-1}$ $\boldsymbol{\beta}^{K-1} = \mathbf{0}$

Ignorándolo

Sin embargo, a veces la restricción no es necesaria. Por ejemplo, si estaba interesado en formar un intervalo de confianza para la cantidad , entonces esto es lo mismo que , así que inferencia en relativamente cantidades realmente no importan. Además, si su tarea es predicción en lugar de inferencia de parámetros, sus predicciones no se verán afectadas si se estiman todos los vectores de coeficientes (sin restringir uno). $\beta^0_1 - \beta^2_1$ $\beta^0_1 - c - [\beta^2_1-c]$

— Taylor
fuente