¿Qué es el gradiente-log-normalizador?

En la wiki, la función softmax se define como el gradiente-log-normalizador de la distribución de probabilidad categórica . Aquí se encuentra una explicación parcial del log-normalizador , pero ¿qué significa gradiente-log-normalizador ?

softmax

— tashuhka
fuente

Usando la notación de la página de wikipedia ( https://en.wikipedia.org/wiki/Exponential_family ), una familia exponencial es una familia de distribuciones de probabilidad que tienen pmfs / pdfs que se pueden escribir como (notando que , puede ser valor vectorial): donde son los parámetros naturales, son las estadísticas suficientes, y es el normalizador de registro (a veces llamado la función de partición de registro). La razón por la que se llama normalizador de registro, ya que se puede verificar que, en el caso continuo, para que este sea un pdf válido, debemos tener $\theta$ $x$

f_{θ} (x) = h (x) \exp [η (θ)^{T} t (x) - A (θ)]

$f_{\theta}(x)=h(x)\exp[\eta(\theta)^Tt(x)-A(\theta)]$

η (θ) = η

$\eta(\theta)=\eta$

t (x)

$t(x)$

A (θ)

$A(\theta)$

A (θ)

$A(\theta)$

A (θ) = \log [\int h (x) \exp [η (θ)^{T} t (x)] d x],

$A(\theta)=\log\left[\int h(x)\exp[\eta(\theta)^Tt(x)]dx\right],$ y en el caso discreto, para que sea un pmf válido , debemos tener

A (θ) = \log [\sum_{x} h (x) \exp [η (θ)^{T} t (x)]] .

$A(\theta)=\log\left[\sum_x h(x)\exp[\eta(\theta)^Tt(x)]\right].$ En cada caso, notamos que

\int h (x) \exp [η (θ)^{T} t (x)] d x

$\int h(x)\exp[\eta(\theta)^Tt(x)]dx$ y

\sum_{x} h (x) \exp [η (θ)^{T} t (x)]

$\sum_x h(x)\exp[\eta(\theta)^Tt(x)]$ son las constantes de normalización de las distribuciones, de ahí el nombre normalizador de registro.

Ahora para ver la relación específica entre la función softmax y la distribución categórica dimensional, tendremos que usar una parametrización específica de la distribución. Es decir, deje que sea tal que y , y define (dejando ). El pmf para esta distribución es (dejando que sea un vector caliente, es decir, y para ): $k$ $\theta_1,\cdots,\theta_{k-1}$ $0<\theta_1,\cdots,\theta_{k-1}$ $\sum_{i=1}^{k-1}\theta_i<1$ $\theta_k=1-\sum_{i=1}^{k-1}\theta_i$ $\theta=(\theta_1,\cdots,\theta_{k})$ $x=(x_1,\cdots,x_{k})$ $x_i=1$ $x_j=0$ $i\neq j$

f_{θ} (x) = \prod_{i = 1}^{k} θ_{i}^{x_{i}} .

$f_{\theta}(x)=\prod_{i=1}^k\theta_i^{x_i}.$ Para escribir esto como una familia exponencial, tenga en cuenta que , , y , entonces:

h (x) = 1

$h(x)=1$

η (θ) = (\log [θ_{1} / θ_{k}], \dots, \log [θ_{k - 1} / θ_{k}], 0)

$\eta(\theta)=(\log[\theta_1/\theta_k],\cdots, \log[\theta_{k-1}/\theta_k],0)$

t (x) = (x_{1}, \dots, x_{k})

$t(x)=(x_1,\cdots,x_{k})$

A (θ) = - \log [θ_{k}]

$A(\theta)=-\log[\theta_k]$

f_{θ} (x) = \exp [(\log [θ_{1} / θ_{k}], \dots, \log [θ_{k - 1} / θ_{k}], 0)^{T} (x_{1}, \dots, x_{k}) - (- \log [θ_{k}])] .

$f_{\theta}(x)=\exp[(\log[\theta_1/\theta_k],\cdots, \log[\theta_{k-1}/\theta_k],0)^T(x_1,\cdots,x_{k})-(-\log[\theta_k])].$

Ahora vamos a escribir sugestivamente , para que podamos escribir . Entonces el normalizador de registro se convierte en Tomando la derivada parcial con respecto a , encontramos revelando que el gradiente del normalizador de registro es de hecho la función softmax: $\eta(\theta_i)=\log[\theta_i/\theta_k]=\eta_i$ $\theta_i=\frac{e^{\eta_i}}{\sum_{j=1}^ke^{\eta_j}}$

A (η) = - \log [\frac{e^{η_{k}}}{\sum_{j = 1}^{k} e^{η_{j}}}] = - \log [\frac{1}{\sum_{j = 1}^{k} e^{η_{j}}}] = \log [\sum_{j = 1}^{k} e^{η_{j}}] .

$A(\eta)=-\log\left[\frac{e^{\eta_k}}{\sum_{j=1}^ke^{\eta_j}}\right]= -\log\left[\frac{1}{\sum_{j=1}^ke^{\eta_j}}\right]=\log\left[\sum_{j=1}^ke^{\eta_j}\right].$

η_{i}

$\eta_i$

\frac{\partial}{\partial η_{i}} A (η) = \frac{e^{η_{i}}}{\sum_{j = 1}^{k} e^{η_{j}}},

$\frac{\partial}{\partial \eta_i}A(\eta)=\frac{e^{\eta_i}}{\sum_{j=1}^ke^{\eta_j}},$

\nabla A (η) = [\frac{e^{η_{1}}}{\sum_{j = 1}^{k} e^{η_{j}}}, \dots, \frac{e^{η_{k}}}{\sum_{j = 1}^{k} e^{η_{j}}}] .

$\nabla A(\eta)=\left[\frac{e^{\eta_1}}{\sum_{j=1}^ke^{\eta_j}},\cdots,\frac{e^{\eta_k}}{\sum_{j=1}^ke^{\eta_j}}\right].$

— aleshing
fuente

¡¡Guau!! Esa fue una gran explicación y tiene total sentido. Gracias :)

— tashuhka

¡He estado buscando esta derivación durante mucho tiempo! Me pregunto, ¿en qué contexto tuvo que desarrollar este conocimiento? ¿Viste esto como parte de un curso o libro de texto? Seguí encontrando referencias a esta relación en Internet, pero en realidad nadie dio los detalles.

— zipzapboing

@zipzapboing ¡En realidad no conocía esta propiedad del softmax hasta que vi la pregunta de OP! Sin embargo, tuve un curso de estadísticas de nivel de Casella y Berger (donde se introducen familias exponenciales y algunas de sus otras propiedades), lo que me permitió saber que probar la propiedad no sería tan difícil con la parametrización correcta.

— aleshing