¿Cuál es el nombre de este cuadro que muestra tasas positivas falsas y verdaderas y cómo se genera?


22

La siguiente imagen muestra una curva continua de tasas de falsos positivos frente a tasas positivas verdaderas:

ingrese la descripción de la imagen aquí

Sin embargo, lo que no entiendo de inmediato es cómo se calculan estas tasas. Si se aplica un método a un conjunto de datos, tiene una cierta tasa de FP y una cierta tasa de FN. ¿No significa eso que cada método debe tener un solo punto en lugar de una curva? Por supuesto, hay múltiples formas de configurar un método, produciendo múltiples puntos diferentes, pero no me queda claro cómo existe este continuo de tasas o cómo se genera.


2
Me interesaría saber de dónde vino esto. Parece estar afirmando que Baidu es 100% perfecto (y mejor que las personas) para identificar / reconocer rostros. O eso, o está usando los resultados de Baidu como la verdad fundamental en lugar de la categorización humana, lo que también es realmente extraño.
Deja de dañar a Mónica el


OK, mezclaron los resultados de diferentes experimentos y redondearon sus datos fuente incorrectamente. Baidu debería ser 0.9977 ± 0.0006
Deja de dañar a Monica el

2
Por cierto, se perdió que su fuente tenía la respuesta: "Consulte Wikipedia para obtener más detalles sobre la lectura de la curva ROC".
Deja de dañar a Monica el

2
@OrangeDog 0.9977 ± 0.0006 es la precisión de Baidu desde la página de resultados LFW , no AUC. Esto es confuso porque la página de resultados de LFW no tiene un encabezado para la columna de la que proviene. Sin embargo, su papel v4 arxiv presenta este número como la precisión. He calculado el AUC en su curva en esta función . Aunque el AUC de 1,000 es confuso, creo que mi técnica es válida.
Brandon Amos

Respuestas:


27

El gráfico es la curva ROC y los puntos (Tasa de falso positivo, Tasa de verdadero positivo) se calculan para diferentes umbrales. Suponiendo que tiene una función de utilidad uniforme, el valor umbral óptimo es el del punto más cercano a (0, 1).


Entonces, ¿este tipo de curva requiere que el método tenga un parámetro de umbral relajante?
Axoren

2
Sí, pero el umbral podría ser muchas cosas, por ejemplo, la probabilidad de registro para un modelo entrenado dados los datos de prueba o la distancia al hiperplano de separación para un SVM.
Morten

1
Por ejemplo, la línea diagonal es un algoritmo de conjetura aleatorio; el parámetro será "¿con qué probabilidad debemos adivinar VERDADERO?"
Deja de dañar a Monica

21

Para generar curvas ROC (= curvas características de funcionamiento del receptor):

Supongamos que tenemos un clasificador binario probabilístico, como la regresión logística. Antes de presentar la curva ROC, se debe entender el concepto de matriz de confusión . Cuando hacemos una predicción binaria, puede haber 4 tipos de errores:

  • Predecimos 0 mientras deberíamos tener la clase en realidad 0: esto se llama un Verdadero Negativo , es decir, predecimos correctamente que la clase es negativa (0). Por ejemplo, un antivirus no detectó un archivo inofensivo como un virus.
  • Predecimos 0 mientras deberíamos tener la clase en realidad 1: esto se llama Falso Negativo , es decir, predecimos incorrectamente que la clase es negativa (0). Por ejemplo, un antivirus no pudo detectar un virus.
  • Predecimos 1 mientras deberíamos tener la clase en realidad 0: esto se llama Falso Positivo , es decir, predecimos incorrectamente que la clase es positiva (1). Por ejemplo, un antivirus consideraba que un archivo inofensivo era un virus.
  • Predecimos 1 mientras deberíamos tener la clase en realidad 1: esto se llama Verdadero Positivo , es decir, predecimos correctamente que la clase es positiva (1). Por ejemplo, un antivirus detectó legítimamente un virus.

Para obtener la matriz de confusión, revisamos todas las predicciones hechas por el modelo y contamos cuántas veces ocurren cada uno de esos 4 tipos de errores:

ingrese la descripción de la imagen aquí

En este ejemplo de una matriz de confusión, entre los 50 puntos de datos que están clasificados, 45 están correctamente clasificados y los 5 están mal clasificados.

Dado que para comparar dos modelos diferentes, a menudo es más conveniente tener una sola métrica en lugar de varias, calculamos dos métricas de la matriz de confusión, que luego combinaremos en una:

  • TPAGSTPAGS+Fnorte
  • FPAGSFPAGS+Tnorte . Intuitivamente, esta métrica corresponde a la proporción de puntos de datos negativos que se consideran erróneamente como positivos, con respecto a todos los puntos de datos negativos. En otras palabras, cuanto mayor sea el FPR, más puntos de datos negativos clasificaremos erróneamente.

0.00;0,01,0,02,...,1.00

ingrese la descripción de la imagen aquí

En esta figura, el área azul corresponde al área bajo la curva de la característica de funcionamiento del receptor (AUROC). La línea discontinua en la diagonal presentamos la curva ROC de un predictor aleatorio: tiene un AUROC de 0.5. El predictor aleatorio se usa comúnmente como línea de base para ver si el modelo es útil.

Si quieres obtener experiencia de primera mano:


9

La respuesta de Morten aborda correctamente la pregunta en el título: la cifra es, de hecho, una curva ROC. Se produce trazando una secuencia de tasas de falsos positivos (FPR) contra sus correspondientes tasas de verdaderos positivos.

Sin embargo, me gustaría responder a la pregunta que haces en el cuerpo de tu publicación.

Si se aplica un método a un conjunto de datos, tiene una cierta tasa de FP y una cierta tasa de FN. ¿No significa eso que cada método debe tener un solo punto en lugar de una curva? Por supuesto, hay múltiples formas de configurar un método, produciendo múltiples puntos diferentes, pero no me queda claro cómo existe este continuo de tasas o cómo se genera.

Muchos métodos de aprendizaje automático tienen parámetros ajustables. Por ejemplo, el resultado de una regresión logística es una probabilidad predicha de pertenencia a la clase. Una regla de decisión para clasificar todos los puntos con probabilidades pronosticadas por encima de un umbral para una clase, y el resto para otra, puede crear un rango flexible de clasificadores, cada uno con diferentes estadísticas TPR y FPR. Lo mismo puede hacerse en el caso del bosque aleatorio, donde uno está considerando los votos de los árboles, o SVM, donde está considerando la distancia firmada desde el hiperplano.

En el caso de que realice una validación cruzada para estimar el rendimiento fuera de la muestra, la práctica típica es utilizar los valores de predicción (votos, probabilidades, distancias firmadas) para generar una secuencia de TPR y FPR. Por lo general, esto parece una función de paso, porque normalmente hay un solo punto que se mueve de TP a FN o FP a FN, en cada valor predicho (es decir, todos los valores pronosticados fuera de la muestra son únicos). En este caso, si bien hay un continuo de opciones para calcular TPR y FPR, las funciones TPR y FPR no serán continuas porque solo hay finitos puntos fuera de la muestra, por lo que las curvas resultantes tendrán una apariencia escalonada .


0

De Wikipedia:

La curva ROC fue desarrollada por primera vez por ingenieros eléctricos e ingenieros de radar durante la Segunda Guerra Mundial para detectar objetos enemigos en los campos de batalla y pronto se introdujo en la psicología para dar cuenta de la detección perceptual de estímulos. El análisis ROC desde entonces se ha utilizado en medicina, radiología, biometría y otras áreas durante muchas décadas y se utiliza cada vez más en el aprendizaje automático y la investigación de minería de datos.

El ROC también se conoce como una curva de característica operativa relativa, porque es una comparación de dos características operativas (TPR y FPR) a medida que cambia el criterio.

Puede pensar en los dos ejes como costos en los que se debe incurrir para que el clasificador binario funcione. Idealmente, desea incurrir en una tasa de falsos positivos tan baja como sea posible para una tasa de verdaderos positivos tan alta como sea posible. Es decir, desea que el clasificador binario invoque la menor cantidad de falsos positivos para la mayor cantidad de positivos verdaderos posible.

Para hacerlo concreto, imagine un clasificador que pueda detectar si cierta enfermedad está presente midiendo la cantidad de algún biomarcador. Imagine que el biomarcador tiene un valor en el rango de 0 (ausente) a 1 (saturado). ¿Qué nivel maximiza la detección de la enfermedad? Podría darse el caso de que, por encima de cierto nivel, el biomarcador clasifique a algunas personas como portadoras de la enfermedad y, sin embargo, no la tengan. Estos son falsos positivos. Luego, por supuesto, están aquellos que serán clasificados como portadores de la enfermedad cuando realmente la tengan. Estos son los verdaderos positivos.

El ROC evalúa la proporción de positivos verdaderos de todos los positivos contra la proporción de falsos positivos teniendo en cuenta todos los valores umbral posibles.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.