¿Es AUC la probabilidad de clasificar correctamente una instancia seleccionada al azar de cada clase?


10

Leí este subtítulo en un documento y nunca he visto a AUC descrito de esta manera en ningún otro lugar. ¿Es esto cierto? ¿Hay alguna prueba o una forma simple de ver esto?

La figura 2 muestra la precisión de predicción de variables dicotómicas expresadas en términos del área bajo la curva característica de operación del receptor (AUC), que es equivalente a la probabilidad de clasificar correctamente dos usuarios seleccionados al azar, uno de cada clase (por ejemplo, hombre y mujer )

Me parece que no puede ser cierto, ya que para AUC = 0.5, lo anterior sugeriría que uno tiene una probabilidad del 50% de predecir correctamente un lanzamiento de moneda dos veces seguidas, pero en realidad, solo tiene una probabilidad del 25% de predecir correctamente dos lanzamientos de monedas seguidos. Al menos, así es como estoy pensando en esta declaración.


1
Aprecio que el concepto expresado en el título no sea del todo correcto, pero para que coincida con la cita, ¿no debería decir "la probabilidad de clasificar correctamente ..." en lugar de simplemente "la probabilidad de clasificar"? Eso me confundió la primera vez que lo leí.
Silverfish

1
¡Ya era un título lo suficientemente largo! De hecho, consideré agregar "correctamente", lo creas o no. :)
thecity2

Respuestas:


13

La cita es ligeramente incorrecta. La afirmación correcta es que ROC AUC es la probabilidad de que un ejemplo positivo elegido al azar tenga una clasificación más alta que un ejemplo negativo elegido al azar. Esto se debe a la relación entre ROC AUC y la prueba de rangos de Wilcoxon.

Encontrará la discusión en Tom Fawcett " Una introducción al análisis ROC " esclarecedora.


8

La descripción del autor no es del todo precisa. El área bajo la curva ROC es en realidad igual a la probabilidad de que un ejemplo positivo seleccionado al azar tenga una puntuación de riesgo más alta que la de un ejemplo negativo seleccionado al azar. Esto no necesariamente tiene nada que ver con la clasificación, es solo una medida de separación entre las distribuciones de puntaje.

Para su ejemplo de moneda, imagine que tiene dos monedas y cada una tiene una puntuación asociada. Luego lanzas ambas monedas hasta que salga una cara y la otra cruz (ya que estamos condicionando diferentes resultados). Esto es equivalente a tener un modelo que haga una puntuación aleatoria, y la probabilidad de que la moneda que salga cara tenga una puntuación más alta (o más baja) es 1/2.


2

La descripción que ha leído es correcta, aunque no me gusta su redacción. El área bajo la curva ROC (AUC) es la probabilidad de clasificar correctamente un par aleatorio de individuos en la clase 1 de la clase 2. Es una estadística basada en el rango, por lo que si tuviera que adivinar si un individuo en el par está clasificado más alto que el otro, eso es solo un 50% de probabilidad si se adivina al azar. El AUC es idéntico [1] al estadístico de prueba de rango con signo de Wilcoxon, y esto puede usarse para ilustrar su significado.

[1]: Mason y Graham (2002). Áreas debajo de las curvas de características operativas relativas (ROC) y niveles operativos relativos (ROL): significación estadística e interpretación. Revista trimestral de la Royal Meteorological Society. 128: 2145-2166.


1

Como otros señalaron, el AUC expresa la probabilidad de que un ejemplo elegido al azar de la clase positiva reciba, del clasificador, una puntuación más alta que un ejemplo elegido al azar de la clase negativa.

Para la prueba de esta propiedad, vea: ¿Cómo derivar una fórmula matemática para AUC?

O la fuente utilizada para esa respuesta: D. Hand, 2009, Medición del rendimiento del clasificador: una alternativa coherente al área bajo la curva ROC

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.