0-1 Explicación de la función de pérdida

19

Estoy tratando de comprender cuál es el propósito de la función de pérdida y no puedo entenderlo.

Entonces, hasta donde yo entiendo, la función de pérdida es para introducir algún tipo de métrica con la que podamos medir el "costo" de una decisión incorrecta.

Digamos que tengo un conjunto de datos de 30 objetos, los dividí en conjuntos de entrenamiento / prueba como 20/10. Usaré la función de pérdida 0-1, así que digamos que mi conjunto de etiquetas de clase es M y la función se ve así :

L (i, j) = {\begin{cases} 0 yo = j \\ 1 yo \neq j \end{cases} yo, j \in METRO

$L(i, j) = \begin{cases} 0 \qquad i = j \\ 1 \qquad i \ne j \end{cases} \qquad i,j \in M$

Así que construí un modelo en mis datos de entrenamiento, digamos que estoy usando el clasificador Naive Bayes, y este modelo clasificó 7 objetos correctamente (les asignó las etiquetas de clase correctas) y 3 objetos fueron clasificados incorrectamente.

Entonces, mi función de pérdida devolvería "0" 7 veces y "1" 3 veces. ¿Qué tipo de información puedo obtener de eso? ¿Que mi modelo clasificó el 30% de los objetos incorrectamente? ¿O hay más?

Si hay algún error en mi forma de pensar, lo siento mucho, solo estoy tratando de aprender. Si el ejemplo que proporcioné es "demasiado abstracto", hágamelo saber, intentaré ser más específico. Si intenta explicar el concepto con un ejemplo diferente, utilice la función de pérdida 0-1.

machine-learning loss-functions

— Johnny Johansson
fuente

14

Ha resumido correctamente la función de pérdida 0-1 como una precisión efectiva. Tus 1 se convierten en indicadores de elementos mal clasificados, independientemente de cómo se hayan clasificado incorrectamente. Como tiene tres 1 de cada 10 elementos, su precisión de clasificación es del 70%.

Si cambia la ponderación de la función de pérdida, esta interpretación ya no se aplica. Por ejemplo, en la clasificación de enfermedades, puede ser más costoso perder un caso positivo de enfermedad (falso negativo) que diagnosticar falsamente la enfermedad (falso positivo). En este caso, su función de pérdida pesaría más la clasificación errónea de falsos negativos. La suma de sus pérdidas ya no representaría la precisión en este caso, sino el "costo" total de la clasificación errónea. La función de pérdida 0-1 es única en su equivalencia a la precisión, ya que lo único que le importa es si lo hizo bien o no, y no cómo se cometen los errores.

— Wang nuclear
fuente

@JohnnyJohansson que es la definición de precisión en las estadísticas, ver en.wikipedia.org/wiki/Sensitivity_and_specificity

— Tim

@Tim - Todavía estoy confundido por la función de pérdida 0-1 - ¿podría la matriz resultante tener valores mayores que 1, es decir, si hay 3 clasificaciones de fallas veríamos un valor de 3 en la entrada correspondiente? ver aquí math.stackexchange.com/questions/2623072/…

— Xavier Bourret Sicotte

2

Sí, esto es básicamente: cuenta el número de elementos mal clasificados. No hay nada más detrás, es una función de pérdida muy básica. Lo que sigue, la pérdida 0-1 conduce al modo de estimación de la distribución objetivo (en comparación $L_1$ pérdida para estimar la mediana y $L_2$ pérdida para estimar la media).

— Tim
fuente

0

Creo que su confusión no está diferenciando la pérdida de un punto de datos frente a la pérdida de todo el conjunto de datos.

Específicamente, su $L(y,\hat y)$ es la pérdida de un punto de datos (estoy cambiando un poco la notación). Y la pérdida para todo el conjunto de datos, es decir, la precisión de la clasificación, necesita sumar todos los puntos de datos.

\sum_{yo} L (y_{yo}, {\hat{y}}_{yo})

$\sum_i L(y_i,\hat y_i)$

— Haitao Du
fuente

De hecho, obtengo la diferencia, pero es difícil para mí entender qué necesitaría esta pérdida para un punto de datos que no sea calcular la pérdida para todo el conjunto de datos. ¿Y qué debo considerar al elegir la función de pérdida adecuada para algún problema en particular?

— Johnny Johansson