Pérdida logística multinomial vs (entropía cruzada vs error cuadrado)

Observé que Caffe (un marco de aprendizaje profundo) utilizó la capa de pérdida Softmax SoftmaxWithLoss como capa de salida para la mayoría de las muestras de modelos .

Hasta donde sé, la capa de pérdida Softmax es la combinación de la capa de pérdida logística multinomial y la capa Softmax .

Desde Caffe, dijeron que

El cálculo del gradiente Softmax Loss Layer es más estable numéricamente

Sin embargo, esta explicación no es la respuesta que quiero, solo explica la combinación de la capa de pérdida logística multinomial y la capa de pérdida de Softmax en lugar de capa por capa. Pero no se compara con otro tipo de función de pérdida.

Sin embargo, me gustaría saber más cuáles son las diferencias / ventajas / desventajas de esta función de 3 errores, que es la pérdida logística multinomial , la entropía cruzada (CE) y el error cuadrado (SE) en la perspectiva de aprendizaje supervisado. ¿Algún artículo de apoyo?

— karfai
fuente

Solo una pista: supongo que obtendrá una respuesta más rápida si agrega la etiqueta "caffe" a sus preguntas. También publicarlo en stackoverflow en lugar de stackexchange podría darle más atención).

— mcExchange

La combinación hace que el gradiente sea fácil de calcular, solo y-t. willamette.edu/~gorr/classes/cs449/classify.html

— Jingpeng Wu

Respuestas:

En mi opinión, la función de pérdida es la función objetivo que queremos que nuestras redes neuronales optimicen sus pesos de acuerdo con ella. Por lo tanto, es específico de la tarea y también de alguna manera empírica. Para ser claros, la pérdida logística multinomial y la pérdida de entropía cruzada son las mismas (consulte http://ufldl.stanford.edu/wiki/index.php/Softmax_Regression ). La función de costo de la pérdida logística multinomial es así $J(\theta) = -\frac{1}{m} \left[ \sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)}) \log (1-h_\theta(x^{(i)})) \right].$

Generalmente se usa para problemas de clasificación. El error cuadrado tiene una ecuación como $\frac 1 {2N} \sum_{i=1}^N \| x^1_i - x^2_i \|_2^2.$

Por lo tanto, generalmente se usa para minimizar el uso de algunos errores de construcción.

EDITAR: @MartinThoma La fórmula anterior de pérdida logística multinomial es solo para el caso binario, para el caso general, debe ser , donde K es el número de categorías. $J(\theta) = -\left[ \sum_{i=1}^{m} \sum_{k=1}^{K} 1\left\{y^{(i)} = k\right\} \log P(y^{(i)} = k | x^{(i)} ; \theta) \right]$

— Beahacker
fuente

En Caffe, MultinomialLogisticLoss es , entonces, ¿quién se equivoca aquí?

\frac{- 1}{N} \sum_{n = 1}^{N} \log (p_{n, l_{n}})

$\frac{-1}{N}\sum_{n=1}^{N}\log(p_{n,l_n})$

— moi

No está mal, son variables binarias, al final, se puede reducir a su formulación.

y^{i}

$y^i$

— beahacker

Pensé que la pérdida logística multinomail no tenía el segundo summand, por lo que

J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} y^{(i)} \log h_{θ} (x^{(i)})]

$J(\theta) = - \frac{1}{m} [\sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)})]$

— Martin Thoma

@MartinThoma Mi fórmula es solo para el caso binario, para el caso general, debe ser

J (θ) = - [\sum_{i = 1}^{m} \sum_{k = 1}^{K} 1 {y^{(i)} = k} \log P (y^{(i)} = k | x^{(i)}; θ)]

$J(\theta) = -\left[ \sum_{i=1}^{m} \sum_{k=1}^{K} 1\left\{y^{(i)} = k\right\} \log P(y^{(i)} = k | x^{(i)} ; \theta) \right]$

— beahacker

@beahacker ¿Podría decirme por qué el segundo summand no está incluido en un caso multinominal como lo señala Martin Thoma? Estoy tratando de entender por qué se hace así. Al menos podrías señalarme algún recurso para investigar.

— Nandeesh

Me gustaría saber más cuáles son las diferencias / ventajas / desventajas de esta función de 3 errores, que es la pérdida logística multinomial, la entropía cruzada (CE) y el error cuadrado (SE) en la perspectiva de aprendizaje supervisado.

La pérdida logística multinomial es en realidad la misma que la entropía cruzada. Mire esta función (la función de costo en softmax ): donde m es el número de muestra, K es el número de clase.

J (θ) = - \sum_{i = 1}^{m} \sum_{k = 1}^{K} 1 {y^{(i)} = k} \log p (y^{(i)} = k ∣ x^{(i)}; θ)

$J( \theta ) = - \sum^m_{i=1} \sum^K_{k=1} 1 \{ y^{(i)} = k \} \log p(y^{(i)} = k \mid x^{(i)} ; \theta)$

La función del indicador ( ) determina si el debajo es 0 o 1 en la definición de entropía cruzada , que está etiquetado como uno de los puntos calientes en los datos de entrenamiento, y es la probabilidad condicional del softmax (q (x) como se muestra a continuación). $1 \{ y^{(i)} = k \}$ $p(x)$ $p(y^{(i)} = k \mid x^{(i)} ; \theta)$

- \sum_{x} p (x) \log q (x)

$-\sum_x p(x) \log q(x)$

Y MSE es principalmente para la situación donde la función de enlace es la función de unidad (la distribución de respuesta sigue una distribución normal), la regresión lineal estándar, mientras que la entropía cruzada es normalmente donde la función de enlace es la función logit. Aquí hay una comparación impresionante a la que puede referirse.

¿Algún artículo de apoyo?

Excepto los que están en los enlaces, le recomiendo este ejemplo: https://github.com/rasbt/python-machine-learning-book/blob/master/faq/softmax_regression.md

— Lerner Zhang
fuente