La forma de calcular AUC-ROC es trazar el TPR y el FPR como el umbral, se cambia y calcular el área bajo esa curva. Pero, ¿por qué esta área bajo la curva es igual a esta probabilidad? Asumamos lo siguiente:τ
- A es la distribución de puntajes que el modelo produce para los puntos de datos que realmente están en la clase positiva.
- B es la distribución de puntajes que el modelo produce para los puntos de datos que realmente están en la clase negativa (queremos que esté a la izquierda de ).A
- τ es el umbral de corte. Si un punto de datos obtiene un puntaje mayor que este, se predice que pertenece a la clase positiva. De lo contrario, se predice que estará en la clase negativa.
Tenga en cuenta que el TPR (recuperación) viene dado por: y el FPR (caída) es: .P(A>τ)P(B>τ)
Ahora, graficamos el TPR en el eje y y el FPR en el eje x, dibujamos la curva para varios y calculamos el área bajo esta curva ( ).τAUC
Obtenemos:
AUC=∫10TPR(x)dx=∫10P(A>τ(x))dx
donde es el FPR. Ahora, una forma de calcular esta integral es considerar que pertenece a una distribución uniforme. En ese caso, simplemente se convierte en la expectativa del .
xxTPR
AUC=Ex[P(A>τ(x))](1)
si consideramos .
x∼U[0,1)
Ahora, aquí era solo elxFPR
x=FPR=P(B>τ(x))
Dado que consideramos que es de una distribución uniforme,
x
P(B>τ(x))∼U
=>P(B<τ(x))∼(1−U)∼U
=>FB(τ(x))∼U(2)
Pero sabemos por la transformada inversa de la ley que para cualquier variable aleatoria , si continuación, . Esto se debe a que tomar cualquier variable aleatoria y aplicarle su propio CDF conduce al uniforme.XFX(Y)∼UY∼X
FX(X)=P(FX(x)<X)=P(X<F−1X(X))=FXF−1X(X)=X
y esto solo es válido para el uniforme.
El uso de este hecho en la ecuación (2) nos da:
τ(x)∼B
Sustituyendo esto en la ecuación (1) obtenemos:
AUC=Ex(P(A>B))=P(A>B)
En otras palabras, el área debajo de la curva es la probabilidad de que una muestra positiva aleatoria tenga una puntuación más alta que una muestra negativa aleatoria.