Aprendizaje automático: ¿Debo usar una entropía cruzada categórica o una pérdida de entropía cruzada binaria para las predicciones binarias?

36

En primer lugar, me di cuenta de que si necesito realizar predicciones binarias, tengo que crear al menos dos clases a través de una codificación en caliente. ¿Es esto correcto? Sin embargo, ¿es la entropía cruzada binaria solo para predicciones con una sola clase? Si tuviera que usar una pérdida de entropía cruzada categórica que normalmente se encuentra en la mayoría de las bibliotecas (como TensorFlow), ¿habría una diferencia significativa?

De hecho, ¿cuáles son las diferencias exactas entre una entropía cruzada categórica y binaria? Nunca he visto una implementación de entropía cruzada binaria en TensorFlow, así que pensé que quizás la categórica funciona igual de bien.

— infomin101
fuente

1

Ejemplo de clasificación binaria: machinelearningmastery.com/… y clasificación multi-clase: machinelearningmastery.com/…

— usuario1367204

@ user1367204: el enlace a la clasificación de varias clases redirige a la clasificación binaria. Debería ser este .

— user3389669

51

La pérdida de entropía cruzada binomial es un caso especial de pérdida de entropía cruzada multinomial para . $m=2$

\begin{aligned} L (θ) & = - \frac{1}{norte} \sum_{yo = 1}^{norte} [y_{yo} Iniciar sesión ({pags}_{yo}) + (1 - y_{yo}) Iniciar sesión (1 - {pags}_{yo})] \\ = - \frac{1}{norte} \sum_{yo = 1}^{norte} \sum_{j = 1}^{metro} y_{yo j} Iniciar sesión ({pags}_{yo j}) \end{aligned}

$\begin{align} \mathcal{L}(\theta) &= -\frac{1}{n}\sum_{i=1}^n \left[y_i \log(p_i) + (1-y_i) \log(1-p_i)\right] \\ &= -\frac{1}{n}\sum_{i=1}^n\sum_{j=1}^m y_{ij} \log(p_{ij}) \end{align}$

Donde indexa muestras / observaciones y indexa clases, es la etiqueta de muestra (binario para LSH, vector de un solo hot en el RHS) y es la predicción para una muestra. $i$ $j$ $y$ $p_{ij}\in(0,1):\sum_{j} p_{ij} =1\forall i,j$

— Sycorax dice reinstalar a Mónica
fuente

3

¿Significa decir que siempre que use 2 clases en una pérdida de entropía cruzada multinomial, esencialmente estoy usando una pérdida de entropía cruzada binaria?

— infomin101

2

@leekwotsin yup

— Sycorax dice Reinstate Monica

17

La entropía cruzada binaria es para clasificaciones de etiquetas múltiples, mientras que la entropía cruzada categórica es para clasificación de clases múltiples donde cada ejemplo pertenece a una sola clase.

— Henok S Mengistu
fuente

3

¿Cuál es la justificación de su declaración? ¿Por qué no usarías la entropía cruzada categórica para la clasificación de etiquetas múltiples?

— michal

¿Qué pasa si hay varias etiquetas, cada una con múltiples clases?

— slizb

1

Esto es exactamente lo que quería escuchar, pero no lo que mi jefe quiere escuchar. Un poco de explicación hubiera sido increíble.

— Aditya

2

Creo que hay tres tipos de tareas de clasificación:

Clasificación binaria: dos clases exclusivas.
Clasificación multiclase: más de dos clases exclusivas.
Clasificación multi-etiqueta: solo clases no exclusivas

De estos, podemos decir

En el caso de (1), debe usar la entropía cruzada binaria.
En el caso de (2), debe usar entropía cruzada categórica.
En el caso de (3), debe usar la entropía cruzada binaria. Simplemente puede considerar el clasificador multi-etiqueta como un clasificador binario multi separado. Si tiene 10 clases aquí, tiene 10 clasificadores binarios por separado. Cada clasificador binario se entrena de forma independiente. Por lo tanto, podemos producir etiquetas múltiples para cada muestra. Si desea asegurarse de que se debe adquirir al menos una etiqueta, puede seleccionar la que tenga la función de pérdida de clasificación más baja o usar otras métricas.

¡Quiero enfatizar que la clasificación multi-clase no es similar a la clasificación multi-etiqueta ! ¡Más bien, el clasificador de etiquetas múltiples toma prestada una idea del clasificador binario!

— jeongmin.cha
fuente