Una lista de funciones de costo utilizadas en redes neuronales, junto con aplicaciones

133

¿Cuáles son las funciones de costo comunes utilizadas en la evaluación del rendimiento de las redes neuronales?

Detalles

(siéntase libre de omitir el resto de esta pregunta, mi intención aquí es simplemente proporcionar una aclaración sobre la notación que las respuestas pueden usar para ayudarlos a ser más comprensibles para el lector general)

Creo que sería útil tener una lista de funciones de costos comunes, junto con algunas formas en que se han utilizado en la práctica. Entonces, si otros están interesados en esto, creo que una wiki comunitaria es probablemente el mejor enfoque, o podemos eliminarlo si está fuera de tema.

Notación

Entonces, para comenzar, me gustaría definir una notación que todos usamos al describirlos, para que las respuestas se ajusten bien entre sí.

Esta notación es del libro de Neilsen .

Una red neuronal Feedforward consiste en muchas capas de neuronas conectadas entre sí. Luego toma una entrada, esa entrada "gotea" a través de la red y luego la red neuronal devuelve un vector de salida.

Más formalmente, llame $a^i_j$ la activación (también conocida como salida) de la neurona $j^{th}$ en la capa $i^{th}$ , donde $a^1_j$ es el elemento $j^{th}$ en el vector de entrada.

Luego podemos relacionar la entrada de la siguiente capa con la anterior a través de la siguiente relación:

$a^i_j = \sigma(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j)$

dónde

es la función de activación, $\sigma$

es el peso desde laneurona en lacapa hasta laneurona en lacapa , $w^i_{jk}$ $k^{th}$ $(i-1)^{th}$ $j^{th}$ $i^{th}$

es el sesgo de laneurona en lacapa , y $b^i_j$ $j^{th}$ $i^{th}$

representa el valor de activación de laneurona en lacapa . $a^i_j$ $j^{th}$ $i^th$

A veces escribimos para representar , en otras palabras, el valor de activación de una neurona antes de aplicar la función de activación. $z^i_j$ $\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j$

ingrese la descripción de la imagen aquí

Para una notación más concisa podemos escribir

$a^i = \sigma(w^i \times a^{i-1} + b^i)$

$I \in \mathbb{R}^n$ $a^1 = I$ $a^2$ $a^3$ $a^m$

Introducción

Una función de costo es una medida de "qué tan bueno" hizo una red neuronal con respecto a su muestra de entrenamiento y la salida esperada. También puede depender de variables como pesos y sesgos.

Una función de costo es un valor único, no un vector, porque califica qué tan bien hizo la red neuronal en su conjunto.

Específicamente, una función de costo tiene la forma

C (W, B, S^{r}, E^{r})

$C(W, B, S^r, E^r)$

$W$ $B$ $S^r$ $E^r$ $y^i_j$ $z^i_j$ $j$ $i$ $W$ $B$ $S^r$

$\delta^L$

δ_{j}^{L} = \frac{\partial C}{\partial a_{j}^{L}} σ^{'} (z_{j}^{i})

$\delta^L_j = \frac{\partial C}{\partial a^L_j} \sigma^{ \prime}(z^i_j)$

Que también se puede escribir como un vector a través de

δ^{L} = \nabla_{a} C ⊙ σ^{'} (z^{i})

$\delta^L = \nabla_a C \odot \sigma^{ \prime}(z^i)$

Proporcionaremos el gradiente de las funciones de costo en términos de la segunda ecuación, pero si uno quiere probar estos resultados por sí mismos, se recomienda usar la primera ecuación porque es más fácil trabajar con ella.

Requisitos de función de costo

Para usarse en la propagación hacia atrás, una función de costo debe satisfacer dos propiedades:

$C$

C = \frac{1}{n} \sum_{x} C_{x}

$C=\frac{1}{n} \sum\limits_x C_x$

$C_x$ $x$

Esto es así, nos permite calcular el gradiente (con respecto a los pesos y sesgos) para un solo ejemplo de entrenamiento, y ejecutar Gradient Descent.

$C$ $a^L$

$a^i_j$ $z^i_j$

$0\leq a^L_j \leq 1$ $j$ $\sqrt{a^L_j}$ $a^L_j \geq 0$

machine-learning neural-networks

— Phylliida
fuente

Este es un sitio de preguntas y respuestas, y el formato de esta publicación realmente no se ajusta a eso. Probablemente debería poner la mayor parte del contenido en una respuesta y dejar solo la pregunta (por ejemplo, ¿Qué es una lista de funciones de costo utilizadas en las NN?).

— Roger Fan

Ok, eso es mejor? Creo que las definiciones son importantes, de lo contrario las respuestas se vuelven vagas para aquellos que no están familiarizados con la terminología que usa el escritor.

— Phylliida

Pero, ¿qué pasa si una respuesta diferente usa notación o terminología diferente?

— Roger Fan,

La idea es que todos usen la misma terminología aquí, y que si es diferente la convertimos a esto, por lo que las respuestas "encajan" entre sí. Pero supongo que podría eliminar esa pieza si no crees que sea útil.

— Phylliida

Solo creo que el detalle en el que entra la pregunta no es realmente necesario o relevante. Parece un poco excesivo y limitante, pero solo soy yo.

— Roger Fan

Respuestas:

Aquí están los que entiendo hasta ahora. La mayoría de estos funcionan mejor cuando se dan valores entre 0 y 1.

Costo cuadrático

También conocido como error cuadrático medio , probabilidad máxima y error cuadrático total , esto se define como:

C_{M S T} (W, B, S^{r}, E^{r}) = 0.5 \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2}

$C_{MST}(W, B, S^r, E^r) = 0.5\sum\limits_j (a^L_j - E^r_j)^2$

$r$

\nabla_{a} C_{M S T} = (a^{L} - E^{r})

$\nabla_a C_{MST} = (a^L - E^r)$

Costo de entropía cruzada

También conocido como verosimilitud negativa de Bernoulli y entropía cruzada binaria

C_{C E} (W, B, S^{r}, E^{r}) = - \sum_{j} [E_{j}^{r} ln a_{j}^{L} + (1 - E_{j}^{r}) ln (1 - a_{j}^{L})]

$C_{CE}(W, B, S^r, E^r) = -\sum\limits_j [E^r_j \text{ ln } a^L_j + (1 - E^r_j) \text{ ln }(1-a^L_j)]$

$r$

\nabla_{a} C_{C E} = \frac{(a^{L} - E^{r})}{(1 - a^{L}) (a^{L})}

$\nabla_a C_{CE} = \frac{(a^L - E^r)}{(1-a^L)(a^L)}$

Costo exponencial

$\tau$

C_{E X P} (W, B, S^{r}, E^{r}) = τ \exp (\frac{1}{τ} \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2})

$C_{EXP}(W, B, S^r, E^r) = \tau\text{ }\exp(\frac{1}{\tau} \sum\limits_j (a^L_j - E^r_j)^2)$

$\text{exp}(x)$ $e^x$

$r$

\nabla_{a} C = \frac{2}{τ} (a^{L} - E^{r}) C_{E X P} (W, B, S^{r}, E^{r})

$\nabla_a C = \frac{2}{\tau}(a^L- E^r)C_{EXP}(W, B, S^r, E^r)$

$C_{EXP}$ $C_{EXP}$

Distancia Hellinger

C_{H D} (W, B, S^{r}, E^{r}) = \frac{1}{\sqrt{2}} \sum_{j} (\sqrt{a_{j}^{L}} - \sqrt{E_{j}^{r}})^{2}

$C_{HD}(W, B, S^r, E^r) = \frac{1}{\sqrt{2}}\sum\limits_j(\sqrt{a^L_j}-\sqrt{E^r_j})^2$

$0$ $1$

$r$

\nabla_{a} C = \frac{\sqrt{a^{L}} - \sqrt{E^{r}}}{\sqrt{2} \sqrt{a^{L}}}

$\nabla_a C = \frac{\sqrt{a^L}-\sqrt{E^r}}{\sqrt{2}\sqrt{a^L}}$

Kullback – Leibler divergencia

También conocido como divergencia de información , ganancia de información , entropía relativa , KLIC o divergencia de KL (ver aquí ).

D_{K L} (P ‖ Q) = \sum_{i} P (i) \ln \frac{P (i)}{Q (i)}

$D_{\mathrm{KL}}(P\|Q) = \sum_i P(i) \, \ln\frac{P(i)}{Q(i)}$

donde es una medida de la pérdida de información cuando se utiliza para aproximar . Por lo tanto, queremos establecer y , porque queremos medir cuánta información se pierde cuando usamos para aproximar . Esto nos da $D_{\mathrm{KL}}(P\|Q)$ $Q$ $P$ $P=E^i$ $Q=a^L$ $a^i_j$ $E^i_j$

C_{K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}}

$C_{KL}(W, B, S^r, E^r)=\sum\limits_jE^r_j \log \frac{E^r_j}{a^L_j}$

Las otras divergencias aquí utilizan esta misma idea de crear y . $P=E^i$ $Q=a^L$

El gradiente de esta función de costo con respecto a la salida de una red neuronal y alguna muestra es: $r$

\nabla_{a} C = - \frac{E^{r}}{a^{L}}

$\nabla_a C = -\frac{E^r}{a^L}$

Divergencia generalizada de Kullback-Leibler

A partir de aquí .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}} - \sum_{j} (E_{j}^{r}) + \sum_{j} (a_{j}^{L})

$C_{GKL}(W, B, S^r, E^r)=\sum\limits_j E^r_j \log \frac{E^r_j}{a^L_j} -\sum\limits_j(E^r_j) + \sum\limits_j(a^L_j)$

El gradiente de esta función de costo con respecto a la salida de una red neuronal y alguna muestra es: $r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{a^{L}}

$\nabla_a C = \frac{a^L-E^r}{a^L}$

Distancia Itakura-Saito

También desde aquí .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} (\frac{E_{j}^{r}}{a_{j}^{L}} - \log \frac{E_{j}^{r}}{a_{j}^{L}} - 1)

$C_{GKL}(W, B, S^r, E^r)= \sum_j \left(\frac {E^r_j}{a^L_j} - \log \frac{E^r_j}{a^L_j} - 1 \right)$

El gradiente de esta función de costo con respecto a la salida de una red neuronal y alguna muestra es: $r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{{(a^{L})}^{2}}

$\nabla_a C = \frac{a^L-E^r}{\left(a^L\right)^2}$

Donde . En otras palabras, es simplemente igual a la cuadratura cada elemento de . $\left(\left(a^L\right)^2\right)_j = a^L_j \cdot a^L_j$ $\left( a^L\right) ^2$ $a^L$

— Phylliida
fuente

Gracias por compartir, también puede considerar estos: github.com/torch/nn/blob/master/doc/criterion.md

— Yannis Assael

usted tiene un pequeño error en el denominador de la derivada de entropía cruzada, debe ser a*(1-a)noa*(1+a)

— Amro

También sería genial mostrar la función de pérdida de pinball para minimizar los cuantiles de error en lugar del error promedio. Muy utilizado en sistemas de soporte de decisiones.

— Ricardo Cruz

¿Dónde puedo ver gráficos para estos?

— coiso

Con respecto a la función de costo cuadrático, debe tener en cuenta que "error cuadrático medio" "máxima probabilidad" "error cuadrático suma". Los autores pueden usar el nombre (incorrectamente) indistintamente, pero no son lo mismo.

\neq

$\neq$

\neq

$\neq$

— Jon

No tengo la reputación de comentar, pero hay errores de signos en los últimos 3 gradientes.

En la divergencia KL, Esto El mismo error de signo aparece en la divergencia KL generalizada.

\begin{aligned} C & = \sum_{j} E_{j} \log (E_{j} / a_{j}) \\ = \sum_{j} E_{j} \log (E_{j}) - E_{j} \log (a_{j}) \\ d C & = - \sum_{j} E_{j} d \log (a_{j}) \\ = - \sum_{j} (E_{j} / a_{j}) d a_{j} \\ \nabla_{a} C & = \frac{- E}{a} \end{aligned}

$\eqalign{ C &= \sum_j E_j\log(E_j/a_j) \cr &= \sum_j E_j\log(E_j) - E_j\log(a_j) \cr\cr dC &= -\sum_j E_j\,\,d\log(a_j) \cr &= -\sum_j (E_j/a_j)\,da_j \cr\cr \nabla_a C &= \frac{-E}{a} \cr\cr }$

En la distancia Itakura-Saito,

\begin{aligned} C & = \sum_{j} (E_{j} / a_{j}) - \log (E_{j} / a_{j}) - 1 \\ = \sum_{j} (E_{j} / a_{j}) - \log (E_{j}) + \log (a_{j}) - 1 \\ d C & = \sum_{j} (- E_{j} / a_{j}^{2}) d a_{j} + d \log (a_{j}) \\ = \sum_{j} (1 / a_{j}) d a_{j} - (E_{j} / a_{j}^{2}) d a_{j} \\ = \sum_{j} (a_{j} - E_{j}) / a_{j}^{2} d a_{j} \\ \nabla_{a} C & = \frac{a - E}{(a)^{2}} \end{aligned}

$\eqalign{ C &= \sum_j (E_j/a_j) - \log(E_j/a_j) - 1 \cr &= \sum_j (E_j/a_j) - \log(E_j) + \log(a_j) -1 \cr\cr dC &= \sum_j (-E_j/a^2_j)\,da_j + d\log(a_j) \cr &= \sum_j (1/a_j)\,da_j - (E_j/a^2_j)\,da_j \cr &= \sum_j (a_j-E_j)/a^2_j\,\,\,da_j \cr\cr \nabla_a C &= \frac{a-E}{(a)^2} \cr }$

— franco
fuente