El AUC no compara las clases reales versus las predichas entre sí. No se trata de la clase predicha, sino del puntaje de predicción o la probabilidad. Puede hacer la predicción de la clase aplicando un límite a esta puntuación, por ejemplo, cada muestra que obtuvo una puntuación inferior a 0,5 se clasifica como negativa. Pero el ROC llega antes de que eso suceda. Está trabajando con los puntajes / probabilidades de clase.
Toma estos puntajes y clasifica todas las muestras de acuerdo con ese puntaje. Ahora, cada vez que encuentre una muestra positiva, la curva ROC da un paso hacia arriba (a lo largo del eje y). Cada vez que encuentra una muestra negativa, se mueve hacia la derecha (a lo largo del eje x). Si ese puntaje es diferente para las dos clases, las muestras positivas son lo primero (generalmente). Eso significa que das más pasos que a la derecha. Más abajo en la lista vendrán las muestras negativas, por lo que debe moverse hacia la izquierda. Cuando haya terminado la lista completa de muestras, llegará a la coordenada (1,1) que corresponde al 100% de las muestras positivas y al 100% de las negativas.
Si el puntaje separa perfectamente las muestras positivas de las negativas, se mueve desde (x = 0, y = 0) a (1,0) y luego desde allí a (1, 1). Entonces, el área debajo de la curva es 1.
Si su puntaje tiene la misma distribución para muestras positivas y negativas, las probabilidades de encontrar una muestra positiva o negativa en la lista ordenada son iguales y, por lo tanto, las probabilidades de moverse hacia arriba o hacia la izquierda en la curva ROC son iguales. Es por eso que te mueves a lo largo de la diagonal, porque esencialmente te mueves hacia arriba y hacia la izquierda, y hacia arriba y hacia la izquierda, y así sucesivamente ... lo que da un valor AROC de alrededor de 0.5.
En el caso de un conjunto de datos desequilibrado, el tamaño de los pasos es diferente. Entonces, realiza pasos más pequeños a la izquierda (si tiene más muestras negativas). Es por eso que el puntaje es más o menos independiente del desequilibrio.
Entonces, con la curva ROC, puede visualizar cómo se separan sus muestras y el área debajo de la curva puede ser una muy buena métrica para medir el rendimiento de un algoritmo de clasificación binaria o cualquier variable que pueda usarse para separar clases.
La figura muestra las mismas distribuciones con diferentes tamaños de muestra. El área negra muestra dónde se esperarían curvas ROC de mezclas aleatorias de muestras positivas y negativas.