AIC y c-statistic están tratando de responder diferentes preguntas. (También se han planteado algunos problemas con la estadística c en los últimos años, pero lo abordaré como un aparte)
Mas o menos:
- AIC le dice qué tan bueno se ajusta su modelo para un costo específico de clasificación errónea.
- AUC le dice qué tan bueno funcionaría su modelo, en promedio, en todos los costos de clasificación errónea.
Cuando calcula el AIC, trata su logística dando una predicción de digamos 0.9 como predicción de 1 (es decir, más probable 1 que 0), sin embargo, no es necesario que sea así. Puede tomar su puntaje logístico y decir "cualquier cosa por encima de 0.95 es 1, todo lo que sigue es 0". ¿Por qué harías esto? Bueno, esto aseguraría que solo prediga uno cuando esté realmente realmente seguro. Su tasa de falsos positivos será realmente muy baja, pero su falso negativo se disparará. En algunas situaciones, esto no es algo malo: si va a acusar a alguien de fraude, es probable que primero quiera estar realmente seguro. Además, si es muy costoso hacer un seguimiento de los resultados positivos, entonces no querrá demasiados.
Por eso se relaciona con los costos. Hay un costo cuando clasifica un 1 como 0 y un costo cuando clasifica un 0 como 1. Por lo general (suponiendo que haya utilizado una configuración predeterminada), el AIC para la regresión logística se refiere al caso especial cuando ambas clasificaciones erróneas son igualmente costoso. Es decir, la regresión logística le brinda el mejor número total de predicciones correctas, sin ninguna preferencia por positivo o negativo.
La curva ROC se usa porque traza el verdadero positivo contra el falso positivo para mostrar cómo funcionaría el clasificador si lo usara bajo requisitos de costos diferentes. La estadística c surge porque cualquier curva ROC que se encuentra estrictamente por encima de otra es claramente un clasificador dominante. Por lo tanto, es intuitivo medir el área bajo la curva como una medida de cuán bueno es el clasificador en general.
Básicamente, si conoce sus costos al ajustar el modelo, use AIC (o similar). Si solo está construyendo un puntaje, pero no especifica el umbral de diagnóstico, entonces se necesitan enfoques de AUC (con la siguiente advertencia sobre el AUC en sí).
Entonces, ¿qué hay de malo en c-statistic / AUC / Gini?
Durante muchos años, el AUC fue el enfoque estándar, y todavía se usa ampliamente, sin embargo, hay una serie de problemas con él. Una cosa que lo hizo particularmente atractivo fue que corresponde a una prueba de Wilcox en los rangos de las clasificaciones. Es decir, midió la probabilidad de que la puntuación de un miembro elegido al azar de una clase sea mayor que un miembro elegido al azar de la otra clase. El problema es que casi nunca es una métrica útil.
Los problemas más críticos con las AUC fueron publicitados por David Hand hace unos años. (Véanse las referencias a continuación) El quid del problema es que, si bien el AUC promedia todos los costos, debido a que el eje x de la curva ROC es la tasa de falsos positivos, el peso que asigna a los diferentes regímenes de costos varía entre los clasificadores. Entonces, si calcula el AUC en dos regresiones lógicas diferentes, no medirá "lo mismo" en ambos casos. Esto significa que tiene poco sentido comparar modelos basados en AUC.
Hand propuso un cálculo alternativo utilizando una ponderación de costo fijo, y llamó a esto la medida H: hay un paquete en R llamado hmeasure
que realizará este cálculo, y creo que AUC para la comparación.
Algunas referencias sobre los problemas con AUC:
¿Cuándo es el área bajo la curva característica de funcionamiento del receptor una medida apropiada del rendimiento del clasificador? DJ Hand, C. Anagnostopoulos Pattern Recognition Letters 34 (2013) 492–495
(Encontré que esta es una explicación particularmente accesible y útil)