La función ROC (no es necesariamente una curva) le permite evaluar la capacidad de discriminación proporcionada por un modelo estadístico específico (compuesto por una variable predictiva o un conjunto de ellas).
Una consideración principal de los ROC es que las predicciones del modelo no solo provienen de la capacidad del modelo para discriminar / hacer predicciones basadas en la evidencia proporcionada por las variables predictoras. También opera un criterio de respuesta que define cuánta evidencia es necesaria para que el modelo prediga una respuesta, y cuál es el resultado de estas respuestas. El valor establecido para los criterios de respuesta influirá en gran medida en las predicciones del modelo y, en última instancia, en el tipo de errores que cometerá.
Considere un modelo genérico con variables predictoras y un criterio de respuesta. Este modelo intenta predecir la presencia de X respondiendo Sí o No. Entonces tiene la siguiente matriz de confusión:
**X present X absent**
**Model Predicts X Present** Hit False Alarm
**Model Predicts X Absent** Miss Correct Rejection
En esta matriz, solo necesita considerar la proporción de Hits y las falsas alarmas (porque los otros se pueden derivar de estos, dado que tienen que algunos a 1). Para cada criterio de respuesta, tendrá una matriz de confusión diferente. Los errores (Misses y falsas alarmas) están relacionados negativamente, lo que significa que un criterio de respuesta que minimiza las falsas alarmas maximiza las fallas y viceversa. El mensaje es: no hay almuerzo gratis.
Entonces, para comprender qué tan bien el modelo discrimina casos / hace predicciones, independientemente de los criterios de respuesta establecidos, traza las tasas de Hits y Falso producidas en el rango de posibles criterios de respuesta.
Lo que obtienes de este gráfico es la función ROC. El área debajo de la función proporciona una medida imparcial y no paramétrica de la capacidad de discriminación del modelo. Esta medida es muy importante porque está libre de cualquier confusión que pueda haber producido el criterio de respuesta.
Un segundo aspecto importante es que al analizar la función, uno puede definir qué criterios de respuesta son mejores para sus objetivos. Qué tipos de errores desea evitar y qué errores están bien. Por ejemplo, considere una prueba de VIH: es una prueba que busca algún tipo de evidencia (en este caso, anticuerpos) y hace una discriminación / predicción basada en la comparación de la evidencia con el criterio de respuesta. Este criterio de respuesta generalmente se establece muy bajo, para minimizar las faltas. Por supuesto, esto dará como resultado más falsas alarmas, que tienen un costo, pero un costo que es insignificante en comparación con las Misses.
Con los ROC puede evaluar la capacidad de discriminación de algunos modelos, independientemente de los criterios de respuesta, y también establecer los criterios de respuesta óptimos, dadas las necesidades y limitaciones de lo que sea que esté midiendo. Las pruebas como hi-square no pueden ayudar en absoluto en esto porque incluso si su prueba de si las predicciones están al nivel de probabilidad, muchos pares diferentes de alarma de acierto-falso son consistentes con el nivel de probabilidad.
Algunos marcos, como la teoría de detección de señales, suponen a priori que la evidencia disponible para la discriminación tiene una distribución específica (p. Ej., Distribución normal o distribución gamma). Cuando estas suposiciones se mantienen (o son bastante cercanas), existen algunas medidas realmente agradables que hacen su vida más fácil.
Espero que esto ayude a dilucidar las ventajas de los ROC