ROC vs curvas de precisión y recuperación

159

Entiendo las diferencias formales entre ellos, lo que quiero saber es cuándo es más relevante usar uno frente al otro.

¿Proporcionan siempre información complementaria sobre el rendimiento de un determinado sistema de clasificación / detección?
¿Cuándo es razonable proporcionarlos a ambos, por ejemplo, en un documento? en lugar de solo uno?
¿Hay descriptores alternativos (quizás más modernos) que capturen los aspectos relevantes tanto de ROC como de recuperación de precisión para un sistema de clasificación?

Estoy interesado en argumentos para casos binarios y de múltiples clases (por ejemplo, como uno contra todos).

machine-learning roc precision-recall

Este documento solo debe aparecer en un contexto: biostat.wisc.edu/~page/rocpr.pdf

Podría usar esto para un "tapón" para mencionar mi propia tesis aquí ... En Leitner (2012) propuse una métrica de "Precisión promedio medida en F" (FAP) (ver pág. 65) como la media armónica de F- medida y precisión media. Es decir, una combinación de una métrica de evaluación establecida con la de una métrica de evaluación clasificada. En la tesis, mostré que maximizar la puntuación FAP en el conjunto de entrenamiento se puede utilizar para identificar el mejor límite para delimitar una tarea de recuperación de información que de otro modo no estaría limitada (¡usando 100s de corridas BioCreative!).

— fnl

Aquí hay otra buena discusión sobre la curva AUC-ROC y PR en un conjunto de datos desequilibrado. Tiene la misma conclusión que lo que dijo dsimcha. Cuando te importa más el caso raro, debes usar PR.

— YC

Respuestas:

207

La diferencia clave es que las curvas ROC serán las mismas sin importar la probabilidad de referencia, pero las curvas PR pueden ser más útiles en la práctica para problemas de tipo aguja en pajar o problemas donde la clase "positiva" es más interesante que la negativa clase.

Para mostrar esto, primero comencemos con una forma muy agradable de definir precisión, recuperación y especificidad. Suponga que tiene una clase de "positivo" llamada 1 y una clase de "negativo" llamada 0. es la estimación de la verdadera etiqueta de clase . Entonces: La clave a tener en cuenta es esa sensibilidad / memoria y especificidad , que forman la curva ROC, son probabilidades condicionadas en la etiqueta de clase verdadera . Por lo tanto, serán los mismos independientemente de lo que sea. La precisión es una probabilidad condicionada a $\hat{Y}$ $Y$

\begin{aligned} Precision & = P (Y = 1 | \hat{Y} = 1) \\ Recall = Sensitivity & = P (\hat{Y} = 1 | Y = 1) \\ Specificity & = P (\hat{Y} = 0 | Y = 0) \end{aligned}

$\begin{aligned} &\text{Precision} &= P(Y = 1 | \hat{Y} = 1) \\ &\text{Recall} = \text{Sensitivity} &= P(\hat{Y} = 1 | Y = 1) \\ &\text{Specificity} &= P(\hat{Y} = 0 | Y = 0) \end{aligned}$

P (Y = 1)

$P(Y = 1)$ su estimación de la etiqueta de clase y, por lo tanto, variará si prueba su clasificador en diferentes poblaciones con diferentes valores de referencia . Sin embargo, puede ser más útil en la práctica si solo le importa una población con probabilidad de fondo conocida y la clase "positiva" es mucho más interesante que la clase "negativa". (La precisión del IIRC es popular en el campo de recuperación de documentos, donde este es el caso). Esto se debe a que responde directamente a la pregunta: "¿Cuál es la probabilidad de que esto sea un éxito real dado que mi clasificador dice que es?".

P (Y = 1)

$P(Y = 1)$

Curiosamente, según el teorema de Bayes, puede resolver casos en los que la especificidad puede ser muy alta y la precisión muy baja simultáneamente. Todo lo que tiene que hacer es asumir que está muy cerca de cero. En la práctica, he desarrollado varios clasificadores con esta característica de rendimiento cuando busco agujas en pajares de secuencia de ADN. $P(Y = 1)$

En mi humilde opinión, al escribir un documento, debe proporcionar la curva que responda a la pregunta que desea responder (o la que sea más favorable para su método, si es cínico). Si su pregunta es: "¿Qué tan significativo es un resultado positivo de mi clasificador dadas las probabilidades iniciales de mi problema ?", Use una curva PR. Si su pregunta es, "¿Qué tan bien se puede esperar que este clasificador funcione en general, en una variedad de diferentes probabilidades de referencia ?", Vaya con una curva ROC.

— dsimcha
fuente

¡Esa fue una explicación fantástica!

— Amelio Vazquez-Reina

+1, gran conocimiento de las interpretaciones probabilísticas de precisión, recuerdo y especificidad.

— Zhubarb

¡Qué respuesta! Ojalá pudiera acertar el voto dos veces.

— Chico de Londres

En caso de que esto no estuviera claro en mi comentario anterior: esta respuesta es incorrecta , al igual que las curvas ROC que usan especificidad. Véase, por ejemplo, Introducción al análisis ROC , que también insinúa su deficiencia como se documenta en mi respuesta: "Muchos dominios del mundo real están dominados por un gran número de casos negativos, por lo que el rendimiento en el extremo izquierdo del gráfico ROC se convierte en más interesante."

— fnl

+0.5 @fnl. Si bien no está explícitamente equivocado, creo que a la respuesta le falta el punto de la pregunta; La interpretación probabilística es muy bienvenida, pero es discutible con respecto a la pregunta central. Además, no puedo encontrar un ejemplo realista genérico donde la pregunta: " ¿Qué tan significativo es un resultado positivo de mi clasificador dadas las probabilidades de referencia de mi problema? " No es aplicable. La perspectiva " en general " del ROC-AUC es demasiado confusa. (No hace falta decir que ni se debe utilizar en valor nominal para construir el modelo final)

— usεr11852

Aquí están las conclusiones de un artículo de Davis & Goadrich que explica la relación entre ROC y el espacio de relaciones públicas. Responden las dos primeras preguntas:

Primero, para cualquier conjunto de datos, la curva ROC y la curva PR para un algoritmo dado contienen los mismos puntos. Esta equivalencia conduce al sorprendente teorema de que una curva domina en el espacio ROC si y solo si domina en el espacio PR. En segundo lugar, como corolario del teorema, mostramos la existencia del espacio PR análogo al casco convexo en el espacio ROC, que llamamos curva PR alcanzable. Sorprendentemente, al construir la curva PR alcanzable se descartan exactamente los mismos puntos omitidos por el casco convexo en el espacio ROC. En consecuencia, podemos calcular eficientemente la curva PR alcanzable. [...] Finalmente, mostramos que un algoritmo que optimiza el área bajo la curva ROC no garantiza la optimización del área bajo la curva PR.

En otras palabras, en principio, ROC y PR son igualmente adecuados para comparar resultados. Pero para el caso del ejemplo de un resultado de 20 aciertos y fallos de 1980, muestran que las diferencias pueden ser bastante drásticas, como se muestra en las Figuras 11 y 12.

Figuras 11 y 12 de Davis y Goadrich.

El resultado / curva (I) describe un resultado en el que 10 de los 20 aciertos se encuentran entre los diez primeros rangos y los 10 aciertos restantes se distribuyen uniformemente en los primeros 1500 rangos. Resut (II) describe un resultado en el que los 20 golpes se distribuyen uniformemente en los primeros 500 (de 2000) rangos. Entonces, en los casos en que es preferible una "forma" de resultado como (I), esta preferencia es claramente distinguible en el espacio PR, mientras que el AUC ROC de los dos resultados es casi igual.

— fnl
fuente

Estos gráficos no reflejan (discretizan) la situación descrita, que mostraría pasos en las curvas ROC cada vez que se encuentra un golpe (después de los primeros 10 para la curva I). ROCCH se vería así con el casco convexo. De manera similar para PR, Precision aumentaría una muesca cada vez que se encontrara un golpe, luego decaería durante los fallos, comenzando desde (0,0) para nada predicho (por encima del umbral) si Precision se definió como 0 en este punto (0 / 0) - la curva II como se muestra es la precisión máxima, no la precisión en cada nivel de umbral (y, por lo tanto, de recuperación).

— David MW Powers

Esto es en realidad la Fig. 7 en la versión del artículo que encontré. El documento realmente interpola la curva PR usando la curva ROC. Tenga en cuenta que el resultado de la dominación se basa en la suposición de que recordar no es cero, que no es el caso hasta que se encuentra el primer golpe, y la precisión (como se define en el documento) está formalmente indefinida (0/0) hasta entonces.

— David MW Powers

Sí, la falta de discretización correcta es el problema (aunque podría ocurrir un diagrama como este si se promedia un gran número de ejecuciones). Sin embargo, el resultado del documento es menos significativo de lo que cabría esperar debido a los problemas de indefinición, y no es tan significativo como cabría esperar cuando solo comprende el resultado en términos de reescalado. Nunca usaría PR, pero a veces escalaría a ROC o usaría PN de manera equivalente.

— David MW Powers

Primero, los gráficos de la figura 7 (11 frente a 12) son irrelevantes: no son los gráficos escalonados para un sistema entrenado (ya que los ejemplos positivos exceden un umbral reductor), sino que corresponden a promedios límite a medida que el número de sistemas DIFERENTES se aproxima al infinito. Second Precision y Recall se diseñaron para la búsqueda web y ambos IGNORAN totalmente el (supuesto gran) número de negativos verdaderos (Prec = TP / PP y Rec = TP / RP). Tercero, el gráfico de Precisión y recuperación en realidad solo muestra el sesgo recíproco (1 / PP) frente a la prevalencia recíproca (1 / RP) para un nivel de TP particular (si detuvo una búsqueda web en los golpes correctos de TP).

— David MW Powers

De acuerdo, entonces, después de aclarar todas mis dudas, creo que es necesario informar a los lectores que creo que la respuesta de @DavidMWPowers debería preferirse a la mía.

— fnl

Hay muchos malentendidos sobre la evaluación. Parte de esto proviene del enfoque de Machine Learning de tratar de optimizar algoritmos en conjuntos de datos, sin interés real en los datos.

En un contexto médico, se trata de los resultados del mundo real, por ejemplo, cuántas personas salvas de morir. En un contexto médico, la Sensibilidad (TPR) se usa para ver cuántos de los casos positivos se recogen correctamente (minimizando la proporción perdida como falsos negativos = FNR), mientras que la Especificidad (TNR) se usa para ver cuántos de los casos negativos son correctos eliminado (minimizando la proporción encontrada como falsos positivos = FPR). Algunas enfermedades tienen una prevalencia de uno en un millón. Por lo tanto, si siempre predice negativo, tiene una precisión de 0.999999; esto se logra mediante el simple aprendizaje ZeroR que simplemente predice la clase máxima. Si consideramos Recall y Precision para predecir que no tiene enfermedades, entonces tenemos Recall = 1 y Precision = 0.999999 para ZeroR. Por supuesto, si invierte + ve y -ve e intenta predecir que una persona tiene la enfermedad con ZeroR, obtiene Recall = 0 y Precision = undef (ya que ni siquiera hizo una predicción positiva, pero a menudo las personas definen Precision como 0 en este caso). Tenga en cuenta que Recall (+ ve Recall) e Inverse Recall (-ve Recall), y los TPR, FPR, TNR y FNR relacionados siempre se definen porque solo estamos abordando el problema porque sabemos que hay dos clases para distinguir y proporcionamos deliberadamente ejemplos de cada uno.

Tenga en cuenta la gran diferencia entre la falta de cáncer en el contexto médico (alguien muere y usted es demandado) versus la falta de un documento en una búsqueda en la web (es muy probable que uno de los otros lo haga referencia si es importante). En ambos casos, estos errores se caracterizan como falsos negativos, frente a una gran población de negativos. En el caso de la búsqueda web, obtendremos automáticamente una gran población de negativos verdaderos simplemente porque solo mostramos una pequeña cantidad de resultados (p. Ej., 10 o 100) y no se muestran realmente no debería tomarse como una predicción negativa (podría haber sido 101 ), mientras que en el caso de la prueba de cáncer tenemos un resultado para cada persona y, a diferencia de la búsqueda web, controlamos activamente el nivel falso negativo (tasa).

Entonces, ROC está explorando la compensación entre los verdaderos positivos (versus los falsos negativos como proporción de los positivos reales) y los falsos positivos (versus los negativos verdaderos como una proporción de los negativos reales). Es equivalente a comparar la sensibilidad (+ ve Recall) y la especificidad (-ve Recall). También hay un gráfico PN que se ve igual donde graficamos TP vs FP en lugar de TPR vs FPR, pero dado que hacemos que el gráfico sea cuadrado, la única diferencia son los números que ponemos en las escalas. Están relacionados por las constantes TPR = TP / RP, FPR = TP / RN donde RP = TP + FN y RN = FN + FP son el número de Positivos reales y negativos reales en el conjunto de datos y, a la inversa, sesgos PP = TP + FP y PN = TN + FN son la cantidad de veces que predecimos Positivo o Predecir Negativo. Tenga en cuenta que llamamos rp = RP / N y rn = RN / N la prevalencia de resp. Positivo. negativo y pp = PP / N y rp = RP / N el sesgo a positivo resp.

Si sumamos o promediamos la sensibilidad y especificidad o miramos el área bajo la curva de compensación (equivalente a ROC que simplemente invierte el eje x) obtenemos el mismo resultado si intercambiamos qué clase es + ve y + ve. Esto NO es cierto para Precision and Recall (como se ilustra arriba con la predicción de enfermedad por ZeroR). Esta arbitrariedad es una deficiencia importante de precisión, recuperación y sus promedios (ya sean aritméticos, geométricos o armónicos) y gráficos de compensación.

Los gráficos PR, PN, ROC, LIFT y otros se trazan a medida que se modifican los parámetros del sistema. Esto representa gráficamente los puntos para cada sistema individual entrenado, a menudo con un umbral aumentado o disminuido para cambiar el punto en el que una instancia se clasifica como positiva frente a negativa.

A veces, los puntos trazados pueden ser promedios sobre (cambios de parámetros / umbrales / algoritmos de) conjuntos de sistemas entrenados de la misma manera (pero usando diferentes números aleatorios, muestreos u ordenamientos). Estas son construcciones teóricas que nos informan sobre el comportamiento promedio de los sistemas en lugar de su desempeño en un problema particular. Los gráficos de compensación tienen la intención de ayudarnos a elegir el punto de operación correcto para una aplicación particular (conjunto de datos y enfoque) y de aquí es de donde ROC obtiene su nombre (Las características de operación del receptor apuntan a maximizar la información recibida, en el sentido de la información).

Consideremos contra qué se puede trazar Recall o TPR o TP.

TP vs FP (PN): se ve exactamente como el gráfico ROC, solo con diferentes números

TPR vs FPR (ROC): el TPR contra FPR con AUC no cambia si se invierte +/-.

TPR vs TNR (alt ROC): imagen especular de ROC como TNR = 1-FPR (TN + FP = RN)

TP vs PP (LIFT) - X incs para ejemplos positivos y negativos (estiramiento no lineal)

TPR vs pp (alt LIFT): se ve igual que LIFT, solo que con diferentes números

TP vs 1 / PP - muy similar a LIFT (pero invertido con estiramiento no lineal)

TPR vs 1 / PP: se ve igual que TP vs 1 / PP (diferentes números en el eje y)

TP vs TP / PP - similar pero con expansión del eje x (TP = X -> TP = X * TP)

TPR vs TP / PP: se ve igual pero con diferentes números en los ejes

¡El último es Recall vs Precision!

Tenga en cuenta para estas gráficas que cualquier curva que domine otras curvas (son mejores o al menos tan altas en todos los puntos) seguirá dominando después de estas transformaciones. Dado que dominación significa "al menos tan alto" en cada punto, la curva más alta también tiene "al menos tan alto" un Área bajo la curva (AUC), ya que incluye también el área entre las curvas. Lo contrario no es cierto: si las curvas se cruzan, a diferencia del tacto, no hay dominio, pero un AUC aún puede ser más grande que el otro.

Lo único que hacen las transformaciones es reflejar y / o hacer zoom de diferentes maneras (no lineales) a una parte particular del gráfico ROC o PN. Sin embargo, solo ROC tiene la buena interpretación del Área bajo la curva (probabilidad de que un positivo se clasifique más alto que un negativo - estadística U de Mann-Whitney) y la distancia por encima de la curva (probabilidad de que se tome una decisión informada en lugar de adivinar - Youden J estadística como la forma dicotómica de la información).

En general, no es necesario utilizar la curva de compensación PR y simplemente puede hacer zoom en la curva ROC si se requieren detalles. La curva ROC tiene la propiedad única de que la diagonal (TPR = FPR) representa la posibilidad, que la distancia por encima de la línea de probabilidad (DAC) representa la información o la probabilidad de una decisión informada, y el área bajo la curva (AUC) representa la clasificación o La probabilidad de una correcta clasificación por pares. Estos resultados no son válidos para la curva PR, y el AUC se distorsiona para una mayor recuperación o TPR como se explicó anteriormente. PR AUC ser más grande no implica que ROC AUC es más grande y, por lo tanto, no implica una mayor clasificación (probabilidad de que los pares clasificados +/- se predigan correctamente, es decir, con qué frecuencia predice + ves por encima de -ves) y no implica una mayor información (probabilidad de una predicción informada en lugar de una suposición aleatoria, es decir, con qué frecuencia sabe lo que hace cuando hace una predicción).

Lo sentimos, no hay gráficos. Si alguien quiere agregar gráficos para ilustrar las transformaciones anteriores, ¡sería genial! Tengo bastantes en mis documentos sobre ROC, LIFT, BIRD, Kappa, F-measure, Informedness, etc., pero no se presentan de esta manera, aunque hay ilustraciones de ROC vs LIFT vs BIRD vs RP en https : //arxiv.org/pdf/1505.00401.pdf

ACTUALIZACIÓN: Para evitar tratar de dar explicaciones completas en respuestas o comentarios demasiado largos, estos son algunos de mis documentos "descubriendo" el problema con Precision vs Recall tradeoffs inc. F1, obteniendo información y luego "explorando" las relaciones con ROC, Kappa, Significance, DeltaP, AUC, etc. Este es un problema con el que se topó uno de mis estudiantes hace 20 años (Entwisle) y muchos más han encontrado ese ejemplo del mundo real de la suya, donde había pruebas empíricas de que el enfoque R / P / F / A envió al alumno por el CAMINO INCORRECTO, mientras que la Información (o Kappa o Correlación en los casos apropiados) lo envió por el CORRECTO, ahora a través de docenas de campos. También hay muchos artículos buenos y relevantes de otros autores sobre Kappa y ROC, pero cuando usas Kappas versus ROC AUC versus ROC Altura (Información o Youden ' s J) se aclara en los documentos de 2012 que enumero (muchos de los documentos importantes de otros se citan en ellos). El artículo de Bookmaker de 2003 deriva por primera vez una fórmula de información para el caso multiclase. El documento de 2013 deriva una versión multiclase de Adaboost adaptada para optimizar la información (con enlaces al Weka modificado que lo aloja y lo ejecuta).

Referencias

1998 El uso actual de estadísticas en la evaluación de analizadores de PNL. J Entwisle, DMW Powers - Actas de las conferencias conjuntas sobre nuevos métodos en el procesamiento del lenguaje: 215-224 https://dl.acm.org/citation.cfm?id=1603935 Citado por 15

2003 Recall & Precision versus The Bookmaker. DMW Powers - Conferencia Internacional sobre Ciencia Cognitiva: 529-534 http://dspace2.flinders.edu.au/xmlui/handle/2328/27159 Citado por 46

Evaluación 2011: desde precisión, recuperación y medida F hasta ROC, conocimiento, marcación y correlación. DMW Powers - Journal of Machine Learning Technology 2 (1): 37-63. http://dspace2.flinders.edu.au/xmlui/handle/2328/27165 Citado por 1749

2012 El problema con kappa. DMW Powers - Actas de la 13ª Conferencia de la ACL Europea: 345-355 https://dl.acm.org/citation.cfm?id=2380859 Citado por 63

2012 ROC-ConCert: medición de consistencia y certeza basada en ROC. DMW Powers - Spring Congress on Engineering and Technology (S-CET) 2: 238-241 http://www.academia.edu/download/31939951/201203-SCET30795-ROC-ConCert-PID1124774.pdf Citado por 5

2013 ADABOOK & MULTIBOOK:: Adaptive Boosting with Chance Correction. DMW Powers- Conferencia Internacional ICINCO sobre Informática en Control, Automatización y Robótica http://www.academia.edu/download/31947210/201309-AdaBook-ICINCO-SCITE-Harvard-2upcor_poster.pdf

https://www.dropbox.com/s/artzz1l3vozb6c4/weka.jar (goes into Java Class Path)
https://www.dropbox.com/s/dqws9ixew3egraj/wekagui   (GUI start script for Unix)
https://www.dropbox.com/s/4j3fwx997kq2xcq/wekagui.bat  (GUI shortcut on Windows)

Citado por 4

— David MW Powers
fuente

> "el área debajo de la curva representa la clasificación o la probabilidad de una clasificación por pares correcta" Supongo que es exactamente donde no estamos de acuerdo: el ROC solo demuestra la calidad de la clasificación en la gráfica . Sin embargo, con el AUC PR hay un número único que me dice de inmediato si qué clasificación es preferible (es decir, ese resultado I es preferible al resultado II). El AUC ROC no tiene esta propiedad.

— fnl

El resultado de dominación fnl cita significa que CUANDO SE DEFINE, si una curva domina en ROC, lo hace en PR y viceversa, y esto significa que también tiene un área más alta en ambos, y por lo tanto no hay diferencia cualitativa entre ROC y PR AUC. La cita sobre la clasificación (Mann-Whitney U) es un resultado cuantitativo re probabilidad bien establecido (parte de una prueba de significación) que se recomendó con bastante independencia de ROC, pero luego se descubrió que era ROC AUC. Del mismo modo, la información se definió originalmente de forma independiente, y luego se demostró que corresponde a la altura del punto de operación de ROC. PR no tiene tales resultados.

— David MW Powers

Como he dicho antes, esto es solo una cuestión de escala en condiciones de dominación ("mucho más grande porque multiplicado por un gran número como explico en detalle"), pero en condiciones de no dominación, AUC PR es engañoso y AUC ROC es el indicado. que tiene una interpretación probabilística apropiada (U de Mann-Whitney o clasificación), con el caso de punto de operación único correspondiente a Gini (o, de manera equivalente, la J o la información de Youden, después de escalar).

— David MW Powers

Si consideramos el AUC de punto de operación único (SOC) por simplicidad, entonces Coeficiente de Gini = AUC = (TP / RP + TN / RN) / 2 e Informedness = Youden J = TP / RP + TN / RN - 1 = Sensibilidad + Especificidad -1 = TPR + TNF -1 = Recall + Inverse Recall - 1 etc. Maximizar cualquiera es equivalente, pero la última es la probabilidad de una decisión informada (deliberadamente la equivocada si -ve). Si RN y TN van al infinito con TN >> FP, entonces TN / RN -> 1 y cancela, por lo tanto, Información = Recuperar en los casos que usted cita. Si, en cambio, la gran clase es RP y TP >> FN, entonces TP / RP -> 1 e Informedness = Inverse Recall. Ver referencias

— David MW Powers

Esta es una respuesta muy útil David Powers. Pero perdone mi ignorancia, cuando dice: "Generalmente, no hay necesidad de usar la curva de compensación PR y simplemente puede acercar la curva ROC si se requieren detalles", ¿cómo hago exactamente eso y podría dar más? detalles sobre lo que quieres decir? ¿Significa esto que puedo usar una curva ROC en un caso gravemente desequilibrado de alguna manera? "Darle al FPR o al TPR un mayor peso produciría un puntaje AUC ROC con mayores diferencias de resultados, ¡excelente punto!" ¿Cómo hago esto luego con mi ROC?

— Christopher John el