No estoy seguro de haber recibido la pregunta, pero como el título pide una explicación de las curvas ROC, lo intentaré.
Las curvas ROC se utilizan para ver qué tan bien su clasificador puede separar ejemplos positivos y negativos e identificar el mejor umbral para separarlos.
Para poder usar la curva ROC, su clasificador debe estar clasificado , es decir, debe ser capaz de clasificar ejemplos de manera que los que tengan un rango más alto sean más propensos a ser positivos. Por ejemplo, la regresión logística genera probabilidades, que es un puntaje que puede usar para clasificar.
Dibujo de curva ROC
Dado un conjunto de datos y un clasificador de clasificación:
- Ordene los ejemplos de prueba por puntaje de mayor a menor
- comenzar en(0,0)
- para cada ejemplo en el orden ordenado
x
- si es positivo, mueva hacia arriba1 / posx1/pos
- si es negativo, mueva derecha1 / negx1/neg
donde y son las fracciones de ejemplos positivos y negativos respectivamente.negposneg
Esta bonita imagen animada de gif debería ilustrar este proceso más claramente
En este gráfico, el eje es una tasa positiva verdadera, y el eje es una tasa positiva falsa. Tenga en cuenta la línea diagonal: esta es la línea de base, que se puede obtener con un clasificador aleatorio. Cuanto más se encuentre nuestra curva ROC por encima de la línea, mejor.xyx
Área bajo ROC
El área debajo de la curva ROC (sombreada) muestra naturalmente qué tan lejos está la curva de la línea base. Para la línea base es 0.5, y para el clasificador perfecto es 1.
Puede leer más sobre AUC ROC en esta pregunta: ¿Qué significa AUC y qué es?
Seleccionar el mejor umbral
Esbozaré brevemente el proceso de selección del mejor umbral, y se pueden encontrar más detalles en la referencia.
Para seleccionar el mejor umbral, verá cada punto de su curva ROC como un clasificador separado. Este mini-clasificador utiliza la puntuación que obtuvo el punto como límite entre + y - (es decir, clasifica como + todos los puntos por encima del actual)
Dependiendo de la fracción pos / neg en nuestro conjunto de datos, paralela a la línea de base en el caso del 50% / 50%, puede construir líneas de precisión ISO y tomar la que tenga la mejor precisión.
Aquí hay una imagen que ilustra eso y para más detalles nuevamente los invito a la referencia
Referencia