Tengo dos clasificadores
- A: ingenua red bayesiana
- B: árbol (conectado individualmente) red bayesiana
En términos de precisión y otras medidas, A funciona comparativamente peor que B. Sin embargo, cuando uso los paquetes R ROCR y AUC para realizar el análisis ROC, resulta que el AUC para A es más alto que el AUC para B. ¿Por qué es esto? ¿sucediendo?
El verdadero positivo (tp), falso positivo (fp), falso negativo (fn), verdadero negativo (tn), sensibilidad (sen), especificidad (especificación), valor predictivo positivo (ppv), valor predictivo negativo (npv) y La precisión (acc) para A y B es la siguiente.
+------+---------+---------+
| | A | B |
+------+---------+---------+
| tp | 3601 | 769 |
| fp | 0 | 0 |
| fn | 6569 | 5918 |
| tn | 15655 | 19138 |
| sens | 0.35408 | 0.11500 |
| spec | 1.00000 | 1.00000 |
| ppv | 1.00000 | 1.00000 |
| npv | 0.70442 | 0.76381 |
| acc | 0.74563 | 0.77084 |
+------+---------+---------+
Con la excepción de sens y lazos (spec y ppv) en los marginales (excluyendo tp, fn, fn y tn), B parece tener un mejor desempeño que A.
Cuando calculo el AUC para sens (eje y) vs 1-spec (eje x)
aucroc <- auc(roc(data$prediction,data$labels));
Aquí está la comparación AUC.
+----------------+---------+---------+
| | A | B |
+----------------+---------+---------+
| sens vs 1-spec | 0.77540 | 0.64590 |
| sens vs spec | 0.70770 | 0.61000 |
+----------------+---------+---------+
Asi que aqui están mis preguntas:
- ¿Por qué el AUC para A es mejor que B, cuando B "parece" superar a A con respecto a la precisión?
- Entonces, ¿cómo juzgo / comparo realmente el rendimiento de clasificación de A y B? Quiero decir, ¿uso el valor de AUC? ¿Utilizo el valor acc y, de ser así, por qué?
- Además, cuando aplico las reglas de puntuación adecuadas a A y B, B supera a A en términos de pérdida logarítmica, pérdida cuadrática y pérdida esférica (p <0.001). ¿Cómo influyen estos en juzgar el desempeño de la clasificación con respecto al AUC?
- El gráfico ROC para A se ve muy suave (es un arco curvo), pero el gráfico ROC para B parece un conjunto de líneas conectadas. ¿Por qué es esto?
Según lo solicitado, aquí están las parcelas para el modelo A.
Aquí están las parcelas para el modelo B.
Estas son las gráficas de histograma de la distribución de las probabilidades para A y B. (los descansos se establecen en 20).
Aquí está el diagrama de dispersión de las probabilidades de B vs A.