Wojtek J. Krzanowski y David J. Hand ROC Curves for Continuous Data (2009) es una gran referencia para todo lo relacionado con las curvas ROC. Reúne una serie de resultados en lo que es una base de literatura frustrantemente amplia, que a menudo utiliza una terminología diferente para discutir el mismo tema.
Además, este libro ofrece comentarios y comparaciones de métodos alternativos que se han derivado para estimar las mismas cantidades, y señala que algunos métodos hacen suposiciones que pueden ser insostenibles en contextos particulares. Este es uno de esos contextos; otras respuestas informan el método de Hanley y McNeil, que asume el modelo binormal para la distribución de puntajes, que puede ser inapropiado en casos donde la distribución de puntajes de clase no es (casi) normal. La suposición de puntajes distribuidos normalmente parece especialmente inapropiada en contextos modernos de aprendizaje automático , los modelos comunes típicos como xgboost tienden a producir puntajes con una distribución de "bañera" para tareas de clasificación (es decir, distribuciones con altas densidades en los extremos cerca de 0 y 1 )
Pregunta 1 - AUC
La sección 6.3 discute las comparaciones de ROC AUC para dos curvas ROC (pp 113-114). En particular, entiendo que estos dos modelos están correlacionados, por lo que la información sobre cómo calcularr es críticamente importante aquí; de lo contrario, su estadística de prueba estará sesgada porque no tiene en cuenta la contribución de la correlación.
Para el caso de curvas ROC no correlacionadas que no se basan en suposiciones de distribución paramétricas, las estadísticas para las pruebas e intervalos de confianza que comparan AUC pueden basarse directamente en estimaciones y ^ AUC 2 de los valores de AUC, y estimaciones de sus desviaciones estándar S 1 y S 2 , como se indica en la sección 3.5.1:AUCˆ1AUCˆ2S1S2
Z=AUCˆ1−AUCˆ2S21+S22−−−−−−−√
Para extender tales pruebas al caso en el que se utilizan los mismos datos para ambos clasificadores, debemos tener en cuenta la correlación entre las estimaciones de AUC:
z=AUCˆ1−AUCˆ2S21+S22−rS1S2−−−−−−−−−−−−−√
donde es la estimación de esta correlación. Hanley y McNeil (1983) hicieron tal extensión, basando su análisis en el caso binormal, pero solo dieron una tabla que muestra cómo calcular el coeficiente de correlación estimado r a partir de la correlación r P de los dos clasificadores dentro de la clase P, y la correlación de r n de los dos clasificadores dentro de la clase N, diciendo que la derivación matemática estaba disponible a pedido. Varios otros autores (por ejemplo, Zou, 2001) han desarrollado pruebas basadas en el modelo binormal, asumiendo que se puede encontrar una transformación apropiada que transformará simultáneamente las distribuciones de puntajes de las clases P y N a la normal.rrrPrn
DeLong et al (1988) aprovecharon la identidad entre AUC y el estadístico de prueba de Mann-Whitney, junto con los resultados de la teoría de las estadísticas generalizadas debidas a Sen (1960), para derivar una estimación de la correlación entre las AUC que no se basa en el supuesto binormal. De hecho, DeLong et al (1988) presentaron los siguientes resultados para las comparaciones entre k ≥ 2 clasificadores.Uk≥2
En la Sección 3.5.1, mostramos que el área bajo la curva empírica ROC era igual a la estadística Mann-Whitney , y fue dada porU
dondesPi,i=1,...,nPson el puntaje para losobjetos dela clasePysNj,j=1,...,nNson los puntajes para losobjetos declaseNen la muestra. Supongamos que tenemoskclasificadores, produciendo puntajess r N j ,
AUCˆ=1nNnP∑i=1nN∑j=1nP[I(sPj>sNi)+12I(sPj=sNi)]
sPi,i=1,…,nPPsNj,j=1,…,nNNk y s r P i , j = 1 , ... , n P [Corrigí un error de indexación en esta parte - Sycorax], y ^ A U C r , r = 1 , ... , k . DefinirsrNj,j=1…nNsrPi,j=1,…,nPAUCˆr,r=1,…,k
y
V r 01 =1
Vr10=1nN∑j=1nN[I(srPi>srNj)+12I(srPi=srNj)],i=1,…,nP
Vr01=1nP∑i=1nP[I(srPi>srNj)+12I(srPi=srNj)],j=1,…,nN
a continuación, defina la matriz W 10 con ( r , s ) th elemento
w r , s 10 = 1k×kW10(r,s)
y lamatrizk×kW01con(r,s)th elemento
w r
wr,s10=1nP−1∑i=1nP[Vr10(sPi)−AUCˆr][Vs10(sPi)−AUCˆs]
k×kW01(r,s)
Luego, la matriz de covarianza estimada para el vector( ^ A U C 1,…, ^ A U C kwr,s01=1nN−1∑i=1nN[Vr01(sNi)−AUCˆr][Vs01(sNi)−AUCˆs]
de las áreas estimadas debajo de las curvas es
W = 1(AUCˆ1,…,AUCˆk)con elementoswr,s. Esta es una generalización del resultado para la varianza estimada de un AUC único estimado, también se da en la sección 3.5.1. En el caso de dos clasificadores, la correlación estimadarentrelos AUCestimados viene dada porw1,2W=1nPW10+1nNW01
wr,sr que se pueden usar enzarriba.w1,2w1,1w2,2√z
Como otras respuestas dan las expresiones de Hanley y McNeil para estimadores de varianza AUC, aquí reproduciré el estimador DeLong de p. 68:
sss1−F(s)s1−G(s)sNisPNisNivar(sNPi)
AUCˆ
s2(AUCˆ)=1nPvar(sNPi)+1nNvar(sPNi)
FGFG
Zz
Este es un resumen simplificado de alto nivel de cómo funciona la prueba de hipótesis:
La prueba, en sus palabras, "si un clasificador es significativamente mejor que el otro" puede reformularse como prueba de la hipótesis nula de que los dos modelos tienen AUC estadísticamente iguales contra la hipótesis alternativa de que las estadísticas son desiguales.
Esta es una prueba de dos colas.
Rechazamos la hipótesis nula si el estadístico de prueba está en la región crítica de la distribución de referencia, que es una distribución normal estándar en este caso.
αz>1.96z<−1.96α/21−α/2
Pregunta 1 - Sensibilidad y especificidad
t
sensitivity=tp1−specificity=fp=P(sP>t)=P(sN>t)
El punto de conflicto principal es desarrollar la prueba adecuada dado que las dos proporciones de la muestra estarán correlacionadas (ya que ha aplicado dos modelos a los mismos datos de prueba). Esto se aborda en la p. 111)
tpfpt(tp1−tp2)/s12tpiis212tp1tp2
tp1tp2
N
tp1=tp2tp1≠tp2
Model 2 Positive at tModel 2 Negative at tModel 1 Positive at tacModel 1 Negative at tbd
abcd=∑i=1nPI(s1Pi>t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi>t)⋅I(s2Pi≤t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi≤t)
M=(b−c)2b+c
χ21α=95%M>3.841459
srPisrNj
Pregunta 2
Parece que es suficiente fusionar los resultados promediando los valores de predicción para cada encuestado, de modo que para cada modelo tenga 1 vector de 100 valores pronosticados promediados. Luego calcule las estadísticas de ROC AUC, sensibilidad y especificidad como de costumbre, como si los modelos originales no existieran. Esto refleja una estrategia de modelado que trata a cada uno de los modelos de los 5 encuestados como uno de un "comité" de modelos, algo así como un conjunto.