Observé que Caffe (un marco de aprendizaje profundo) utilizó la capa de pérdida Softmax SoftmaxWithLoss
como capa de salida para la mayoría de las muestras de modelos .
Hasta donde sé, la capa de pérdida Softmax es la combinación de la capa de pérdida logística multinomial y la capa Softmax .
Desde Caffe, dijeron que
El cálculo del gradiente Softmax Loss Layer es más estable numéricamente
Sin embargo, esta explicación no es la respuesta que quiero, solo explica la combinación de la capa de pérdida logística multinomial y la capa de pérdida de Softmax en lugar de capa por capa. Pero no se compara con otro tipo de función de pérdida.
Sin embargo, me gustaría saber más cuáles son las diferencias / ventajas / desventajas de esta función de 3 errores, que es la pérdida logística multinomial , la entropía cruzada (CE) y el error cuadrado (SE) en la perspectiva de aprendizaje supervisado. ¿Algún artículo de apoyo?
y-t
. willamette.edu/~gorr/classes/cs449/classify.html