Si bien es probable que las dos medidas estadísticas estén correlacionadas, miden diferentes cualidades del clasificador.
AUROC
El área bajo la curva (AUC) es igual a la probabilidad de que un clasificador clasifique una instancia positiva elegida al azar más alta que un ejemplo negativo elegido al azar. Mide la habilidad de los clasificadores para clasificar un conjunto de patrones según el grado al que pertenecen a la clase positiva, pero sin asignar patrones a las clases.
La precisión general también depende de la capacidad del clasificador para clasificar patrones, pero también de su capacidad para seleccionar un umbral en la clasificación utilizada para asignar patrones a la clase positiva si está por encima del umbral y a la clase negativa si está por debajo.
Por lo tanto, es probable que el clasificador con la estadística AUROC más alta (en igualdad de condiciones) también tenga una mayor precisión general, ya que la clasificación de los patrones (que AUROC mide) es beneficiosa tanto para AUROC como para la precisión general. Sin embargo, si un clasificador clasifica bien los patrones, pero selecciona mal el umbral, puede tener un AUROC alto pero una precisión general deficiente.
Uso práctico
En la práctica, me gusta recopilar la precisión general, el AUROC y si el clasificador estima la probabilidad de pertenencia a la clase, la entropía cruzada o la información predictiva. Luego tengo una métrica que mide su capacidad bruta para realizar una clasificación difícil (suponiendo que los costos de clasificación errónea de falsos positivos y falsos negativos sean iguales y que las frecuencias de clase en la muestra sean las mismas que las de uso operativo, ¡una gran suposición!), una métrica que mide la capacidad de clasificar patrones y una métrica que mide qué tan bien se calibra la clasificación como una probabilidad.
Para muchas tareas, los costos de clasificación errónea operativa son desconocidos o variables, o las frecuencias de la clase operativa son diferentes a las de la muestra de capacitación o son variables. En ese caso, la precisión general a menudo es bastante insignificante y el AUROC es un mejor indicador de rendimiento e idealmente queremos un clasificador que genere probabilidades bien calibradas, para que podamos compensar estos problemas en el uso operativo. Esencialmente, qué métrica es importante depende del problema que estamos tratando de resolver.