¿Por qué el error cuadrático medio es la entropía cruzada entre la distribución empírica y un modelo gaussiano?

28

En 5.5, Deep Learning (por Ian Goodfellow, Yoshua Bengio y Aaron Courville), afirma que

Cualquier pérdida que consiste en una probabilidad logarítmica negativa es una entropía cruzada entre la distribución empírica definida por el conjunto de entrenamiento y la distribución de probabilidad definida por el modelo. Por ejemplo, el error cuadrático medio es la entropía cruzada entre la distribución empírica y un modelo gaussiano.

No puedo entender por qué son equivalentes y los autores no amplían el punto.

machine-learning normal-distribution cross-entropy

— Mufei Li
fuente

32

Deje que los datos sean . Escriba para la distribución empírica. Por definición, para cualquier función , $\mathbf{x}=(x_1, \ldots, x_n)$ $F(\mathbf{x})$ $f$

E_{F (x)} [f (X)] = \frac{1}{n} \sum_{i = 1}^{n} f (x_{i}) .

$\mathbb{E}_{F(\mathbf{x})}[f(X)] = \frac{1}{n}\sum_{i=1}^n f(x_i).$

Deje que el modelo tenga densidad donde se define en el soporte del modelo. La entropía cruzada de y se define como $M$ $e^{f(x)}$ $f$ $F(\mathbf{x})$ $M$

\begin{matrix} (1) & H (F (x), M) = - E_{F (x)} [\log (e^{f (X)}] = - E_{F (x)} [f (X)] = - \frac{1}{n} \sum_{i = 1}^{n} f (x_{i}) . \end{matrix}

$H(F(\mathbf{x}), M) = -\mathbb{E}_{F(\mathbf{x})}[\log(e^{f(X)}] = -\mathbb{E}_{F(\mathbf{x})}[f(X)] =-\frac{1}{n}\sum_{i=1}^n f(x_i).\tag{1}$

Suponiendo que es una muestra aleatoria simple, su probabilidad de registro negativa es $x$

\begin{matrix} (2) & - \log (L (x)) = - \log \prod_{i = 1}^{n} e^{f (x_{i})} = - \sum_{i = 1}^{n} f (x_{i}) \end{matrix}

$-\log(L(\mathbf{x}))=-\log \prod_{i=1}^n e^{f(x_i)} = -\sum_{i=1}^n f(x_i)\tag{2}$

en virtud de las propiedades de los logaritmos (convierten productos en sumas). La expresión es una expresión constante veces . Debido a que las funciones de pérdida se usan en estadísticas solo comparándolas, no importa que una sea constante (positiva) por la otra. Es en este sentido que la probabilidad de registro negativa "es una" entropía cruzada en la cita. $(2)$ $n$ $(1)$

Se necesita un poco más de imaginación para justificar la segunda afirmación de la cita. La conexión con el error al cuadrado es clara, porque para un "modelo gaussiano" que predice valores en los puntos , el valor de en cualquiera de esos puntos es $p(x)$ $x$ $f$

f (x; p, σ) = - \frac{1}{2} (\log (2 π σ^{2}) + \frac{(x - p (x))^{2}}{σ^{2}}),

$f(x; p, \sigma) = -\frac{1}{2}\left(\log(2\pi \sigma^2) + \frac{(x-p(x))^2}{\sigma^2}\right),$

que es el error al cuadrado pero redimensionado por y desplazado por una función de . Una forma de corregir la cita es asumir que no considera que parte del "modelo" - debe determinarse de alguna manera independientemente de los datos. En ese caso, las diferencias entre los errores cuadrados medios son proporcionales a las diferencias entre las entropías cruzadas o las probabilidades logarítmicas, lo que hace que los tres sean equivalentes para los propósitos de ajuste del modelo. $(x-p(x))^2$ $1/(2\sigma^2)$ $\sigma$ $\sigma$ $\sigma$

(Sin embargo, , se ajusta como parte del proceso de modelado, en cuyo caso la cita no sería del todo correcta). $\sigma = \sigma(x)$

— whuber
fuente

1

+1 con dos sugerencias: podría usar lugar de para evitar confusiones con . La segunda es que la mayoría de las estimaciones de serán . Cuando conecta esto y lo agrega, obtiene . Similar a la fórmula tipo AIC ...

g ()

$g ()$

f ()

$f ()$

F ()

$F ()$

σ^{2}

$\sigma^2$

k \sum_{i = 1}^{n} {(x_{i} - p (x_{i}))}^{2}

$k\sum_{i=1}^n \left (x_i - p (x_i)\right)^2$

- \frac{1}{2} \log [\sum_{i = 1}^{n} {(x_{i} - p (x_{i}))}^{2}] + h (k)

$-\frac {1}{2}\log\left [\sum_{i=1}^n \left (x_i - p (x_i)\right)^2\right] +h(k)$

— probabilidadislogic

@probabilityislogic elijo el par y , ya que no representan cantidades estrechamente relacionados.

F

$F$

f

$f$

— whuber

Hola, creo que esto solo se aplica a la distribución lineal. En problemas de distribución no lineal, creo que todavía podemos usar MSE como función de costo, ¿verdad?

— Lion Lai

5

Para los lectores del libro Deep Learning, me gustaría agregar a la excelente respuesta aceptada que los autores explican su declaración en detalle en la sección 5.5.1, a saber, el Ejemplo: Regresión lineal como máxima verosimilitud .

Allí, enumeran exactamente la restricción mencionada en la respuesta aceptada:

$p(y | x) = \mathcal{N}\big(y; \hat{y}(x; w), \sigma^2\big)$ . La función da la predicción de la media del gaussiano. En este ejemplo, suponemos que la varianza está fijada en alguna constante elegida por el usuario. $\hat{y}(x; w)$ $\sigma^2$

Luego, muestran que la minimización del MSE corresponde a la Estimación de máxima verosimilitud y, por lo tanto, la minimización de la entropía cruzada entre la distribución empírica y . $p(y|x)$

— Kilian Batzner
fuente