Preámbulo

Esta es una publicación muy larga. Si está releyendo esto, tenga en cuenta que he revisado la parte de la pregunta, aunque el material de fondo sigue siendo el mismo. Además, creo que he ideado una solución al problema. Esa solución aparece en la parte inferior de la publicación. Gracias a CliffAB por señalar que mi solución original (editada de esta publicación; ver el historial de edición de esa solución) necesariamente produjo estimaciones sesgadas.

Problema

En los problemas de clasificación de aprendizaje automático, una forma de evaluar el rendimiento del modelo es comparando las curvas ROC o el área bajo la curva ROC (AUC). Sin embargo, es mi observación que hay muy poca discusión sobre la variabilidad de las curvas ROC o las estimaciones de AUC; es decir, son estadísticas estimadas a partir de datos, por lo que tienen algunos errores asociados. Caracterizar el error en estas estimaciones ayudará a caracterizar, por ejemplo, si un clasificador es, de hecho, superior a otro.

Desarrollé el siguiente enfoque, que llamo análisis bayesiano de curvas ROC, para abordar este problema. Hay dos observaciones clave en mi pensamiento sobre el problema:

Las curvas ROC se componen de cantidades estimadas de los datos y son susceptibles de análisis bayesianos.

La curva ROC se compone trazando la tasa positiva verdadera contra la tasa positiva falsa , cada una de las cuales se estima a partir de los datos. Considero las funciones y de , el umbral de decisión utilizado para clasificar la clase A de B (votos de árbol en un bosque aleatorio, distancia desde un hiperplano en SVM, probabilidades pronosticadas en una regresión logística, etc.). Al variar el valor del umbral de decisión obtendrán diferentes estimaciones de y . Además, podemos considerar $TPR(\theta)$ $FPR(\theta)$ $TPR$ $FPR$ $\theta$ $\theta$ $TPR$ $FPR$ $TPR(\theta)$ para ser una estimación de la probabilidad de éxito en una secuencia de ensayos de Bernoulli. De hecho, TPR se define como que es también el MLE de la probabilidad de éxito binomial en un experimento con éxitos y ensayos totales. $\frac{TP}{TP+FN},$ $TP$ $TP+FN>0$

Entonces, al considerar la salida de y como variables aleatorias, nos enfrentamos con un problema de estimar la probabilidad de éxito de un experimento binomial en el que el número de éxitos y fracasos se conoce exactamente (dado por , , y , que supongo son todos fijos). Convencionalmente, uno simplemente usa el MLE y supone que TPR y FPR están fijos para valores específicos de $TPR(\theta)$ $FPR(\theta)$ $TP$ $FP$ $FN$ $TN$ $\theta$ . Pero en mi análisis bayesiano de curvas ROC, dibujo simulaciones posteriores de curvas ROC, que se obtienen extrayendo muestras de la distribución posterior sobre curvas ROC. Un modelo bayesano estándar para este problema es una probabilidad binomial con una beta previa a la probabilidad de éxito; la distribución posterior en la probabilidad de éxito también es beta, por lo que para cada , tenemos una distribución posterior de los valores TPR y FPR. Esto nos lleva a mi segunda observación. $\theta$
Las curvas ROC no son decrecientes. Entonces, una vez que se ha muestreado algún valor de y , hay cero probabilidad de muestrear un punto en el espacio ROC "sureste" del punto muestreado. Pero el muestreo con restricciones de forma es un problema difícil. $TPR(\theta)$ $FPR(\theta)$

El enfoque bayesiano se puede utilizar para simular un gran número de AUC a partir de un solo conjunto de estimaciones. Por ejemplo, 20 simulaciones se ven así en comparación con los datos originales.

Este método tiene una serie de ventajas. Por ejemplo, la probabilidad de que el AUC de un modelo sea mayor que otro puede estimarse directamente comparando el AUC de sus simulaciones posteriores. Las estimaciones de varianza se pueden obtener a través de la simulación, que es más barata que los métodos de remuestreo, y estas estimaciones no generan el problema de las muestras correlacionadas que surgen de los métodos de remuestreo.

Solución

Desarrollé una solución a este problema haciendo una tercera y cuarta observación sobre la naturaleza del problema, además de las dos anteriores.

$TPR(\theta)$ y tienen densidades marginales que son susceptibles de simulación. $FPR(\theta)$

Si (vice ) es una variable aleatoria distribuida en beta con parámetros y (vice y ), también podemos considerar cuál es el promedio de la densidad de TPR en los diferentes valores que corresponden a nuestro análisis. Es decir, podemos considerar un proceso jerárquico en el que uno muestrea un valor de la colección de valores obtenidos por nuestras predicciones de modelos fuera de muestra, y luego muestrea un valor de . Una distribución sobre las muestras resultantes de $TPR(\theta)$ $FPR(\theta)$ $TP$ $FN$ $FP$ $TN$ $\theta$ $\tilde{\theta}$ $\theta$ $TPR(\tilde{\theta})$ $TPR(\tilde{\theta})$ valores es una densidad de la tasa positiva verdadera que es incondicional en sí. Debido a que estamos asumiendo un modelo beta para , la distribución resultante es una mezcla de distribuciones beta, con un número de componentes igual al tamaño de nuestra colección de y coeficientes de mezcla . $\theta$ $TPR(\theta)$ $c$ $\theta$ $1/c$

En este ejemplo, obtuve el siguiente CDF en TPR. Notablemente, debido a la degeneración de las distribuciones beta donde uno de los parámetros es cero, algunos de los componentes de la mezcla son la función delta de Dirac en 0 o 1. Esto es lo que causa los picos repentinos en 0 y 1. Estos "picos" implican que Estas densidades no son continuas ni discretas. Una elección de prior que sea positiva en ambos parámetros tendría el efecto de "suavizar" estos picos repentinos (no mostrados), pero las curvas ROC resultantes serán arrastradas hacia el prior. Lo mismo se puede hacer para FPR (no se muestra). Sacar muestras de las densidades marginales es una aplicación simple de muestreo de transformación inversa.

Para resolver el requisito de restricción de forma, solo tenemos que clasificar TPR y FPR de forma independiente.

El requisito no decreciente es el mismo que el requisito de que las muestras marginales de TPR y FPR se clasifiquen independientemente, es decir, la forma de la curva ROC está completamente determinada por el requisito de que el valor TPR más pequeño se empareje con el FPR más pequeño valor y así sucesivamente, lo que significa que la construcción de una muestra aleatoria con restricciones de forma es trivial aquí. Para el incorrecto anterior, las simulaciones proporcionan evidencia de que la construcción de una curva ROC de esta manera produce muestras con AUC media que converge al AUC original en el límite de un gran número de muestras. A continuación se muestra un KDE de 2000 simulaciones. $\text{Beta}(0,0)$

Comparación con Bootstrap

En una larga conversación de chat con @AdamO (¡gracias, AdamO!), Señaló que existen varios métodos establecidos para comparar dos curvas ROC, o para caracterizar la variabilidad de una sola curva ROC, entre ellas el bootstrap. Entonces, como experimento, intenté poner en marcha mi ejemplo, que como observaciones en el conjunto de reserva y comparar los resultados con el método bayesiano. Los resultados se comparan a continuación (la implementación de bootstrap aquí es el bootstrap simple: muestreo aleatorio con reemplazo del tamaño de la muestra original. La lectura cursiva en bootstraps expone lagunas significativas en mi conocimiento sobre los métodos de muestreo, por lo que quizás esto no sea un enfoque apropiado.) $n=20$

Esta demostración muestra que la media de la rutina de carga está sesgada por debajo de la media de la muestra original, y que el KDE de la rutina de carga produce "jorobas" bien definidas. La génesis de estas jorobas no es misteriosa: la curva ROC será sensible a la inclusión de cada punto, y el efecto de una pequeña muestra (aquí, n = 20) es que la estadística subyacente es más sensible a la inclusión de cada punto punto. (En concreto, este patrón no es un artefacto del ancho de banda del kernel; tenga en cuenta el diagrama de la alfombra. Cada banda tiene varias réplicas de arranque que tienen el mismo valor. El arranque tiene 2000 réplicas, pero la cantidad de valores distintos es claramente mucho menor. puede concluir que las jorobas son una característica intrínseca del procedimiento de arranque.) Por el contrario, las estimaciones medias de AUC bayesianas tienden a estar muy cerca de la estimación original,

Pregunta

Mi pregunta revisada es si mi solución revisada es incorrecta. Una buena respuesta demostrará (o desaprobará) que las muestras resultantes de las curvas ROC están sesgadas, o también probará o desaprobará otras cualidades de este enfoque.

— Sycorax dice reinstalar a Mónica
fuente

Creo que crees demasiado en las curvas ROC. No he visto un solo caso en el que conduzcan a ideas. He visto muchos casos en los que conducen a umbrales, lo cual es realmente una mala idea.

— Frank Harrell el

@FrankHarrell Gracias por la nota, Dr. Harrell. Pero para mis clientes, tengo la tarea de desarrollar clasificadores que tomen decisiones de forma autónoma en conjuntos de datos muy grandes. Aprecio que en un contexto médico, esto es altamente improductivo, pero el análisis de utilidad / costo realizado por expertos para cada observación simplemente no es práctico cuando necesitamos tomar decisiones sobre miles de puntos de datos. Necesitamos tomar decisiones sobre qué modelo implementar para llevar a cabo esta tarea, y ROC / AUC ayudan con esa decisión.

— Sycorax dice Reinstate Monica

Como ha predicho probabilidades, no está utilizando un clasificador de todos modos, al menos al comienzo de su proceso. Los servicios públicos tomarían mejores decisiones, pero si no puede obtener los servicios públicos, aún puede pensar en esto de manera diferente a las curvas ROC utilizando curvas de elevación y umbrales de riesgo de decisión. Esto no es realmente un problema médico.

— Frank Harrell el

X_{1} + X_{2} < 1

$X_1 + X_2 < 1$

X_{1}, X_{2} \sim

$X_1, X_2 \sim$

X_{1}

$X_1$

X_{2}

$X_2$

Comience con mis notas del curso: consulte biostat.mc.vanderbilt.edu/CourseBios330 . Consulte también Bioestadística para la Investigación Biomédica disponible en biostat.mc.vanderbilt.edu/ClinStat , especialmente el capítulo Pérdida de información y el comienzo del Capítulo 10.

— Frank Harrell

$c$

En general, está bastante bien aceptado que puede estimar la variabilidad en las curvas ROC utilizando el bootstrap cf Pepe Etzione Feng . Este es un buen enfoque porque la curva ROC es una estimación empírica y el bootstrap no es paramétrico. Parametrizar cualquier cosa de esta manera introduce suposiciones y complicaciones como "¿es un previo plano realmente no informativo?" No estoy convencido de que este sea el caso aquí.

$\theta$ $\theta$

Tomemos como ejemplo un modelo con discriminación perfecta . Usando su método, encontrará que las bandas de confianza son el cuadrado de la unidad. ¡No son! No hay variabilidad en un modelo con discriminación perfecta. Un bootstrap te mostrará eso.

Si uno abordara el tema del "análisis" ROC desde una perspectiva bayesiana, tal vez sería más útil abordar el problema de la selección de modelos poniendo un previo en el espacio de modelos utilizados para el análisis. Ese sería un problema muy interesante.

— AdamO
fuente

No estoy seguro de que esta respuesta responda al contenido de la publicación. Por ejemplo, acabo de simular curvas ROC para un modelo con discriminación perfecta. Estas curvas están todas concentradas en la esquina noroeste del espacio ROC, y un intervalo central alrededor de las simulaciones AUC son algunos números muy cercanos a 1. Esto está en contradicción directa con la afirmación en la respuesta, que afirma que las simulaciones deben mentir en toda la unidad cuadrada.

— Sycorax dice Reinstate Monica

θ

$\theta$

θ

$\theta$

T P R (θ)

$TPR(\theta)$

F P R (θ)

$FPR(\theta)$

θ

$\theta$

θ

$\theta$

θ

$\theta$

@ user777, ¿qué tiene exactamente un previo?

— AdamO

¿Acabo de inventar un método bayesiano para el análisis de curvas ROC?

Preámbulo

Problema

Solución

Comparación con Bootstrap

Pregunta