La función de error de entropía cruzada en redes neuronales

115

En MNIST For ML Beginners definen la entropía cruzada como

H_{y^{'}} (y) := - \sum_{i} y_{i}^{'} \log (y_{i})

$H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i)$

$y_i$ es el valor de probabilidad pronosticado para la clase e es la probabilidad real para esa clase. $i$ $y_i'$

Pregunta 1

¿No es un problema que (en ) podría ser 0? Esto significaría que tenemos un clasificador realmente malo, por supuesto. Pero piense en un error en nuestro conjunto de datos, por ejemplo, un "obvio" etiquetado como . ¿Simplemente se estrellaría? ¿El modelo que elegimos (activación de softmax al final) básicamente nunca da la probabilidad 0 para la clase correcta? $y_i$ $\log(y_i)$ 13

Pregunta 2

He aprendido que la entropía cruzada se define como

H_{y^{'}} (y) := - \sum_{i} (y_{i}^{'} \log (y_{i}) + (1 - y_{i}^{'}) \log (1 - y_{i}))

$H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log (1-y_i)})$

¿Que es correcto? ¿Tiene referencias de libros de texto para cualquiera de las versiones? ¿Cómo difieren esas funciones en sus propiedades (como funciones de error para redes neuronales)?

machine-learning tensorflow

— Martin Thoma
fuente

Ver también: stats.stackexchange.com/questions/80967/…

— Piotr Migdal

Ver también: Kullback-Leibler Divergence Explicación de la publicación del blog.

— Piotr Migdal

101

Una forma de interpretar la entropía cruzada es verla como una probabilidad de registro (menos) para los datos , bajo un modelo . $y_i'$ $y_i$

Es decir, suponga que tiene algún modelo fijo (también conocido como "hipótesis"), que predice para clases sus probabilidades de ocurrencia hipotéticas . Suponga que ahora observa (en realidad) instancias de la clase , instancias de la clase , instancias de la clase , etc. Según su modelo, la probabilidad de que esto ocurra es: Tomando el logaritmo y cambiando el signo: $n$ $\{1,2,\dots, n\}$ $y_1, y_2,\dots, y_n$ $k_1$ $1$ $k_2$ $2$ $k_n$ $n$

P [d a t a | m o d e l] := y_{1}^{k_{1}} y_{2}^{k_{2}} \dots y_{n}^{k_{n}} .

$P[data|model] := y_1^{k_1}y_2^{k_2}\dots y_n^{k_n}.$

- \log P [d a t a | m o d e l] = - k_{1} \log y_{1} - k_{2} \log y_{2} - \dots - k_{n} \log y_{n} = - \sum_{i} k_{i} \log y_{i}

$-\log P[data|model] = -k_1\log y_1 -k_2\log y_2 - \dots -k_n\log y_n = -\sum_i k_i \log y_i$ Si ahora divide la suma de la derecha por el número de observaciones , y denota las probabilidades empíricas como , obtendrá la entropía cruzada:

N = k_{1} + k_{2} + \dots + k_{n}

$N = k_1+k_2+\dots+k_n$

y_{i}^{'} = k_{i} / N

$y_i'=k_i/N$

- \frac{1}{N} \log P [d a t a | m o d e l] = - \frac{1}{N} \sum_{i} k_{i} \log y_{i} = - \sum_{i} y_{i}^{'} \log y_{i} =: H (y^{'}, y)

$-\frac{1}{N} \log P[data|model] = -\frac{1}{N}\sum_i k_i \log y_i = -\sum_i y_i'\log y_i =: H(y', y)$

Además, la probabilidad logarítmica de un conjunto de datos dado un modelo puede interpretarse como una medida de la "longitud de codificación": el número de bits que espera gastar para codificar esta información si su esquema de codificación se basa en su hipótesis.

Esto se desprende de la observación de que un evento independiente con probabilidad requiere al menos bits para codificarlo (suponiendo una codificación eficiente), y en consecuencia la expresión es literalmente la longitud esperada de la codificación , donde las longitudes de codificación para los eventos se calculan utilizando la distribución "hipotética", mientras que la expectativa se toma sobre la real. $y_i$ $-\log_2 y_i$

- \sum_{i} y_{i}^{'} \log_{2} y_{i},

$-\sum_i y_i'\log_2 y_i,$

Finalmente, en lugar de decir "medida de la longitud de codificación esperada", me gusta mucho usar el término informal "medida de sorpresa". Si necesita muchos bits para codificar un evento esperado de una distribución, la distribución es "realmente sorprendente" para usted.

Con esas intuiciones en mente, las respuestas a sus preguntas se pueden ver de la siguiente manera:

Pregunta 1 . Si. Es un problema cuando el correspondiente no es cero al mismo tiempo $y_i'$ . Corresponde a la situación en la que su modelo cree que alguna clase tiene cero probabilidad de ocurrencia y, sin embargo, la clase aparece en realidad. Como resultado, la "sorpresa" de su modelo es infinitamente grande: su modelo no tuvo en cuenta ese evento y ahora necesita infinitos bits para codificarlo. Es por eso que obtienes el infinito como tu entropía cruzada.

Para evitar este problema, debe asegurarse de que su modelo no haga suposiciones precipitadas acerca de que algo es imposible mientras puede suceder. En realidad, las personas tienden a usar funciones sigmoideas o "softmax" como modelos de hipótesis, que son lo suficientemente conservadoras como para dejar al menos alguna posibilidad para cada opción.

Si usa algún otro modelo de hipótesis, depende de usted regularizarlo (también conocido como "suave") para que no plantee hipótesis de ceros donde no debería.
Pregunta 2 . En esta fórmula, generalmente se supone que es o , mientras que es la hipótesis de probabilidad del modelo para la entrada correspondiente. Si observa detenidamente, verá que es simplemente un para datos binarios, un equivalente de la segunda ecuación en esta respuesta. $y_i'$ $0$ $1$ $y_i$ $-\log P[data|model]$

Por lo tanto, estrictamente hablando, aunque todavía es una probabilidad logarítmica, esto no es sintácticamente equivalente a la entropía cruzada. Lo que algunas personas quieren decir cuando se refieren a una expresión como entropía cruzada es que, de hecho, es una suma sobre entropías cruzadas binarias para puntos individuales en el conjunto de datos: donde y debe interpretarse como las distribuciones binarias correspondientes y .
$\sum_{i} H (y_{i}^{'}, y_{i}),$ $\sum_i H(y_i', y_i),$ $y_i'$ $y_i$ $(y_i', 1-y_i')$ $(y_i, 1-y_i)$

— KT.
fuente

1

¿Puede proporcionar una fuente donde definan ? Aquí lo definen como una distribución única para la etiqueta de clase actual. ¿Cuál es la diferencia?

y' i = \frac{k i}{N}

$y′i=\frac{ki}{N}$

— Lenar Hoyt

1

En el tutorial MNIST TensorFlow también lo definen en términos de vectores de un solo hot.

— Lenar Hoyt

@LenarHoyt Cuando , sería equivalente a one-hot. Puede pensar en one-hot como la codificación de un elemento en función de su probabilidad categórica (real) empírica.

N = 1

$N=1$

k_{i} / N

$k_i/N$

— THN

'evento independiente requiere ... para codificarlo', ¿podría explicar esto un poco, por favor?

— Alex

@Alex Esto puede necesitar una explicación más larga para comprender correctamente: lea sobre los códigos de Shannon-Fano y la relación de la codificación óptima con la ecuación de entropía de Shannon. Para simplificar las cosas, si un evento tiene una probabilidad de 1/2, su mejor opción es codificarlo con un solo bit. Si tiene una probabilidad de 1/4, debe gastar 2 bits para codificarlo, etc. En general, si su conjunto de eventos tiene probabilidades de la forma 1/2 ^ k, debe darles longitudes k, de esta manera su código será acercarse a la longitud óptima de Shannon.

— KT.

22

La primera fórmula de logloss que está utilizando es para la pérdida de registro multiclase, donde el subíndice enumera las diferentes clases en un ejemplo. La fórmula supone que un solo en cada ejemplo es 1, y el resto son todos 0. $i$ $y_i'$

Eso significa que la fórmula solo captura el error en la clase de destino. Descarta cualquier noción de errores que pueda considerar "falso positivo" y no le importa cómo se distribuyen las probabilidades predichas además de la probabilidad predicha de la clase verdadera.

Otra suposición es que para las predicciones de cada ejemplo. Una capa softmax hace esto automáticamente: si usa algo diferente, necesitará escalar las salidas para cumplir con esa restricción. $\sum_i y_i = 1$

Pregunta 1

¿No es un problema que (en ) pueda ser 0? $y_i$ $log(y_i)$

Sí, eso puede ser un problema, pero generalmente no es práctico. Una capa softmax inicializada al azar es extremadamente improbable que produzca un resultado exacto 0en cualquier clase. Pero es posible, así que vale la pena permitirlo. Primero, no evalúe para ningún , porque las clases negativas siempre contribuyen con 0 al error. En segundo lugar, en el código práctico puede limitar el valor a algo parecido a la estabilidad numérica; en muchos casos no es obligatorio, pero se trata de una programación defensiva sensata. $log(y_i)$ $y_i'=0$ log( max( y_predict, 1e-15 ) )

Pregunta 2

Aprendí que la entropía cruzada se define como $H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log (1-y_i)})$

Esta formulación se usa a menudo para una red con una salida que predice dos clases (generalmente membresía de clase positiva para 1 y negativa para salida 0). En ese caso, posible que solo tenga un valor: puede perder la suma sobre . $i$ $i$

Si modifica una red de este tipo para tener dos salidas opuestas y usa softmax más la primera definición de logloss, entonces puede ver que, de hecho, es la misma medición de error pero doblando la métrica de error para dos clases en una sola salida.

Si hay más de una clase para predecir la membresía y las clases no son exclusivas, es decir, un ejemplo podría ser cualquiera o todas las clases al mismo tiempo, entonces deberá usar esta segunda formulación. Para el reconocimiento de dígitos, ese no es el caso (un dígito escrito solo debe tener una clase "verdadera")

— Neil Slater
fuente

Tenga en cuenta que hay cierta ambigüedad en la presentación de la segunda fórmula - en teoría podría suponer una sola clase y sería entonces enumerar los ejemplos.

i

$i$

— Neil Slater

Lo siento, he preguntado algo diferente de lo que quería saber. No veo un problema en , pero en , debido a . ¿Podría por favor ajustar su respuesta a eso?

\log (y_{i}) = 0

$\log(y_i) = 0$

y_{i} = 0

$y_i = 0$

\log (y_{i})

$\log(y_i)$

— Martin Thoma

@NeilSlater si las clases no fueran mutuamente excluyentes, el vector de salida para cada entrada puede contener más de un 1, ¿deberíamos usar la segunda fórmula?

— Medios de comunicación

1

@ Media: No realmente. Sin embargo, debes estar mirando cosas como la clasificación jerárquica. . .

— Neil Slater

1

@Javi: En la pregunta del OP, es la verdad , por lo general, 0 o 1. Es la salida de softmax. Sin embargo, puede terminar en cero en la práctica debido al redondeo de coma flotante. Esto realmente sucede.

y_{i}^{'}

$y'_i$

y_{i}

$y_i$

y_{i}

$y_i$

— Neil Slater

11

Dado , desea optimizar su método de aprendizaje automático para obtener más cerca posible de . $y_{true}$ $y_{predict}$ $y_{true}$

Primera pregunta:

La respuesta anterior ha explicado los antecedentes de su primera fórmula, la entropía cruzada definida en la teoría de la información.

Desde una opinión distinta de la teoría de la información:

puede examinarse a sí mismo que la primera fórmula no tiene penalización por falso positivo (la verdad es falsa pero su modelo predice que es correcta), mientras que la segunda tiene penalización por falso positivo. Por lo tanto, la elección de la primera fórmula o la segunda afectará sus métricas (también conocida como la cantidad estadística que le gustaría usar para evaluar su modelo).

En palabras simples:

Si quiere aceptar que casi todas las personas buenas sean su amigo, pero dispuesto a aceptar que algunas personas malas se conviertan en su amigo, utilice la primera fórmula para el criterio.

Si quieres castigarte a ti mismo aceptando que algunas personas malas sean tu amigo, pero al mismo tiempo tu tasa de aceptación de personas buenas podría ser menor que la primera condición, entonces usa la segunda fórmula.

Mientras, supongo que la mayoría de nosotros somos críticos y nos gustaría elegir el segundo (por lo que muchos paquetes de ML asumen lo que es entropía cruzada).

Segunda pregunta:

Entropía cruzada por muestra por clase:

- y_{t r u e} \log (y_{p r e d i c t})

$-y_{true}\log{(y_{predict})}$

Entropía cruzada para conjuntos de datos completos clases enteras:

\sum_{i}^{n} \sum_{k}^{K} - y_{t r u e}^{(k)} \log (y_{p r e d i c t}^{(k)})

$\sum_i^n \sum_k^K -y_{true}^{(k)}\log{(y_{predict}^{(k)})}$

Por lo tanto, cuando solo hay dos clases (K = 2), tendrá la segunda fórmula.

— Inteligencia artificial
fuente

5

Esos problemas son manejados por el uso del tutorial de softmax.

Para 1) tienes razón en que softmax garantiza una salida distinta de cero porque expone su entrada. Para las activaciones que no brindan esta garantía (como relu), es simple agregar un término positivo muy pequeño a cada salida para evitar ese problema.

En cuanto a 2), obviamente no son lo mismo, pero la formulación de softmax que dieron se ocupa del problema. Si no usó softmax, esto le haría aprender términos de sesgo enormes que suponen 1 para cada clase para cualquier entrada. Pero dado que normalizan el softmax en todas las clases, la única forma de maximizar la salida de la clase correcta es que sea grande en relación con las clases incorrectas.

— jamesmf
fuente

"tienes razón en que softmax garantiza una salida distinta de cero" - Sé que este es teóricamente el caso. En realidad, ¿puede suceder que (debido a problemas numéricos) esto se convierta en 0?

— Martin Thoma

Buena pregunta. Supongo que es perfectamente posible que la función de exponenciación produzca 0.0 si su entrada es demasiado pequeña para la precisión de su flotación. Sin embargo, supongo que la mayoría de las implementaciones agregan el pequeño término positivo para garantizar una entrada distinta de cero.

— jamesmf

0

¿No es un problema que (en ) podría ser 0? $y_i$ $\log(y_i)$

Sí, porque no está definido, pero este problema se evita utilizando en la práctica. $\log(0)$ $\log(y_i + \epsilon)$

¿Que es correcto?
(a) o (b) ? $H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i)$
$H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log(1-y_i)})$

(a) es correcto para la predicción de múltiples clases (en realidad es una suma doble), (b) es lo mismo que (a) para la predicción de dos clases. Ambas son entropía cruzada.

Ejemplo:

Suponga que cada dato de entrenamiento tiene la etiqueta , y el modelo predice . $x_i$ $c_i' \in \{0, 1\}$ $c_i \in [0, 1]$

Para 5 puntos de datos, la etiqueta verdadera y la predicción del modelo son: $c_i'$ $c_i$

$(c_i', c_i)=\{(0, 0.1), (0, 0.4), (0, 0.8), (1, 0.8), (1, 0.2)\}$ (1),

Defina los vectores y como $y_i'$ $y_i$

$y_{ik}':=1$ si , y contrario, $c_i'=k$ $:=0$
$y_{ik}:=p(k|x_i)$ es la probabilidad de que pertenezca a la clase , que se estima por modelo. $x_i$ $k$

El ejemplo (1) en convierte en: $(y_i', y_i)$

$(y_i', y_i)=\{([1, 0], [0.9, 0.1]),$ $([1, 0], [0.6, 0.4]),$ $([1, 0], [0.2, 0.8]),$ $([0, 1], [0.2, 0.8]),$ $([0, 1], [0.8, 0.2])\}$ ,

Tanto (a) como (b) se calculan como:

$H_{y'}(y)=-1/5([log(0.9)+log(0.6) + log(0.2)]_{c_i=0} + [log(0.8) + log(0.2)]_{c_i=1}) = 0.352$

Derivación:

Supongamos que hay múltiples clases de a . Para el punto de entrenamiento , es equivalente a que es 1 en la posición y 0 en otra parte. Cuando , queremos que la salida del modelo esté cerca de 1. Por lo tanto, la pérdida de se puede definir como , que proporciona . La pérdida sobre todas las clases se puede combinar como: $1$ $K$
$(x_i, c_i')$ $c_i' = k$ $y_i'=[0,..,1,0,..]$ $k^{th}$ $y_{ik}'=1$ $y_{ik}=p(k|x_i)$ $(x_i, k)$ $-log(y_{ik})$ $y_{ik} \rightarrow 1 \Rightarrow -log(y_{ik}) \rightarrow 0$

$L(y_i', y_i) = -\sum_{k=1}^{K}y_{ik}'log(y_{ik})$ .

Cuando , la pérdida de todas las otras clases se deshabilita como , entonces, por ejemplo, cuando la etiqueta verdadera es , la pérdida sería ser: $y_{ik}' = 1$ $k' \neq k$ $0log(y_{ik'})=0$ $y_{im}'=1$

$L(y_i', y_i)=-log(y_{im})$ .

La fórmula final sobre todos los puntos de entrenamiento es:

$H_{y'}(y)=-\sum_{(x_i, y_i')}\sum_{k=1}^{K}y_{ik}'log(y_{ik})$ .

Para la clasificación binaria, tenemos (etiquetas verdaderas) y (predicciones del modelo), por lo tanto (a) puede reescribirse como: $y_{i0}' = 1 - y_{i1}'$ $y_{i0} = 1 - y_{i1}$

$\begin{align*} H_{y'}(y)&=-\sum_{(x_i, y_i')}y_{i1}'log(y_{i1})+y_{i0}'log(y_{i0})\\ &=-\sum_{(x_i, y_i')}y_{i1}'log(y_{i1})+(1-y_{i1}')log(1-y_{i1}) \end{align*}$

que es lo mismo que (b).

Entropía cruzada (a) sobre clases (una suma)

La entropía cruzada (a) sobre clases es:

$H_{y'}(y)=-\sum_{k=1}^{K}y_{k}'log(y_{k})$ ,

Esta versión no se puede usar para la tarea de clasificación. Reutilicemos los datos del ejemplo anterior:

$(c_i', c_i)=\{(0, 0.1), (0, 0.4), (0, 0.8), (1, 0.8), (1, 0.2)\}$

Las probabilidades de clase empírica son: , y , $y'_0 = 3/5 = 0.6$ $y'_1 = 0.4$

Las probabilidades de clase estimadas por modelo son: , y $y_0 = 3/5 = 0.6$ $y_1 = 0.4$

(a) se calcula como: . $-y'_0logy_0 - y'_1logy_1 = - 0.6log(0.6) -0.4log(0.4) = 0.292$

Dos puntos de datos y están clasificados pero y se estiman correctamente. $(0, 0.8)$ $(1, 0.2)$ $y'_0$ $y'_1$

Si los 5 puntos se clasificaron correctamente como: ,
$(c_i', c_i)=\{(0, 0.1), (0, 0.4), (0, \color{blue}{0.2}), (1, 0.8), (1, \color{blue}{0.8})\}$

(a) sigue siendo el mismo, ya que nuevamente se estima como . $y'_0$ $y_0=3/5$

— Esmailian
fuente