En la wiki, la función softmax se define como el gradiente-log-normalizador de la distribución de probabilidad categórica . Aquí se encuentra una explicación parcial del log-normalizador , pero ¿qué significa gradiente-log-normalizador ?
En la wiki, la función softmax se define como el gradiente-log-normalizador de la distribución de probabilidad categórica . Aquí se encuentra una explicación parcial del log-normalizador , pero ¿qué significa gradiente-log-normalizador ?
Respuestas:
Usando la notación de la página de wikipedia ( https://en.wikipedia.org/wiki/Exponential_family ), una familia exponencial es una familia de distribuciones de probabilidad que tienen pmfs / pdfs que se pueden escribir como (notando que , puede ser valor vectorial): donde son los parámetros naturales, son las estadísticas suficientes, y A (\ theta) es el normalizador de registro (a veces llamado la función de partición de registro). La razón por la que A (\ theta) se llama normalizador de registro, ya que se puede verificar que, en el caso continuo, para que este sea un pdf válido, debemos tener
Ahora para ver la relación específica entre la función softmax y la distribución categórica dimensional, tendremos que usar una parametrización específica de la distribución. Es decir, deje que sea tal que y , y define (dejando ). El pmf para esta distribución es (dejando que sea un vector caliente, es decir, y para ):
Ahora vamos a escribir sugestivamente , para que podamos escribir . Entonces el normalizador de registro se convierte en Tomando la derivada parcial con respecto a , encontramos revelando que el gradiente del normalizador de registro es de hecho la función softmax: