Intervalo de confianza para la precisión de clasificación con validación cruzada

Estoy trabajando en un problema de clasificación que calcula una métrica de similitud entre dos imágenes de rayos X de entrada. Si las imágenes son de la misma persona (etiqueta de "derecho"), se calculará una métrica más alta; las imágenes de entrada de dos personas diferentes (etiqueta de "incorrecto") darán como resultado una métrica más baja.

Utilicé una validación cruzada estratificada de 10 veces para calcular la probabilidad de clasificación errónea. Mi tamaño de muestra actual es de alrededor de 40 coincidencias correctas y 80 coincidencias incorrectas, donde cada punto de datos es la métrica calculada. Tengo una probabilidad de clasificación errónea de 0.00, pero necesito algún tipo de intervalo de confianza / análisis de error al respecto.

Estaba buscando usar un intervalo de confianza de proporción binomial (donde usaría los resultados de la validación cruzada como un etiquetado correcto o un etiquetado incorrecto para mi número de éxitos). Sin embargo, uno de los supuestos detrás del análisis binomial es la misma probabilidad de éxito para cada ensayo, y no estoy seguro de si se puede considerar que el método detrás de la clasificación de "correcto" o "incorrecto" en la validación cruzada La misma probabilidad de éxito.

El único otro análisis que se me ocurre es repetir la validación cruzada X veces y calcular la media / desviación estándar del error de clasificación, pero no estoy seguro de si esto es apropiado, ya que estaría reutilizando los datos de mi tamaño de muestra relativamente pequeño varias veces.

¿Alguna idea? Estoy usando MATLAB para todos mis análisis, y tengo la caja de herramientas Estadísticas. Agradecería cualquier y toda la ayuda!

— Sean
fuente

¿La probabilidad de clasificación incorrecta de 0.00 significa que obtiene una precisión de clasificación del 100% en cada uno de los 10 pliegues de validación cruzada?

— ameba dice Reinstate Monica

Si eso es correcto. Cada uno de los pliegues no resultó en clasificaciones erróneas; el 0.00 que reporté representa el número total de clasificaciones erróneas (0) del número total de casos de prueba (120).

— Sean

Por cierto, ¿qué quiere decir exactamente con validación cruzada "estratificada"? ¿En cada doblez de CV tiene 120/10 = 12 muestras de prueba, con siempre 4 coincidencias y 8 no coincidencias?

— ameba dice Reinstate Monica

Sí, eso es exactamente, al menos así es como entiendo cómo se está haciendo dentro de MATLAB. Cada pliegue debe contener la misma proporción de las etiquetas de clase 'correctas /' incorrectas ', que es 1: 2.

— Sean

Respuestas:

Influencia de la inestabilidad en las predicciones de diferentes modelos sustitutos

Sin embargo, uno de los supuestos detrás del análisis binomial es la misma probabilidad de éxito para cada ensayo, y no estoy seguro de si se puede considerar que el método detrás de la clasificación de "correcto" o "incorrecto" en la validación cruzada La misma probabilidad de éxito.

Bueno, generalmente esa equivalencia es una suposición que también es necesaria para permitirle agrupar los resultados de los diferentes modelos sustitutos.

En la práctica, su intuición de que esta suposición puede ser violada es a menudo cierta. Pero puedes medir si este es el caso. Ahí es donde encuentro útil la validación cruzada iterativa: la estabilidad de las predicciones para el mismo caso por diferentes modelos sustitutos le permite juzgar si los modelos son equivalentes (predicciones estables) o no.

$k$
validación cruzada iterada de k-fold

$i \cdot k$

También puede calcular el rendimiento para cada iteración (bloque de 3 filas en el dibujo). Cualquier variación entre estos significa que no se cumple el supuesto de que los modelos sustitutos son equivalentes (entre sí y, además, con el "gran modelo" construido en todos los casos). Pero esto también te dice cuánta inestabilidad tienes. Para la proporción binomial, creo que siempre que el rendimiento real sea el mismo (es decir, independiente de si siempre se predicen erróneamente los mismos casos o si se predice erróneamente el mismo número pero diferentes casos). No sé si uno podría asumir sensatamente una distribución particular para el rendimiento de los modelos sustitutos. Pero creo que, en cualquier caso, es una ventaja sobre los informes comunes de errores de clasificación si informas de esa inestabilidad. $k$ $k$

$\ll$
$n$ $k$ $i$

El dibujo es una versión más nueva de la fig. 5 en este documento: Beleites, C. y Salzer, R .: Evaluación y mejora de la estabilidad de modelos quimiométricos en situaciones de pequeño tamaño de muestra, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Tenga en cuenta que cuando escribimos el documento aún no me había dado cuenta de las diferentes fuentes de variación que expliqué aquí, tenga esto en cuenta. Por lo tanto, creo que la argumentaciónpara una estimación efectiva del tamaño de la muestra dado que no es correcto, a pesar de que la conclusión de la aplicación de que diferentes tipos de tejido dentro de cada paciente contribuyen con tanta información general como un nuevo paciente con un tipo de tejido dado probablemente todavía sea válida (tengo un tipo totalmente diferente de evidencia que también apunta de esa manera). Sin embargo, todavía no estoy completamente seguro de esto (ni de cómo hacerlo mejor y así poder verificar), y este problema no está relacionado con su pregunta.

¿Qué rendimiento usar para el intervalo de confianza binomial?

Hasta ahora, he estado usando el rendimiento promedio observado. También podría usar el peor rendimiento observado: cuanto más cercano sea el rendimiento observado a 0.5, mayor será la varianza y, por lo tanto, el intervalo de confianza. Por lo tanto, los intervalos de confianza del rendimiento observado más cercano a 0.5 le dan un "margen de seguridad" conservador.

Tenga en cuenta que algunos métodos para calcular los intervalos de confianza binomiales también funcionan si el número observado de éxitos no es un número entero. Utilizo la "integración de la probabilidad posterior bayesiana" como se describe en
Ross, TD: Intervalos de confianza precisos para la proporción binomial y la estimación de la tasa de Poisson, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2

(No lo sé para Matlab, pero en R puedes usar binom::binom.bayesambos parámetros de forma establecidos en 1).

$n$

Ver también: Bengio, Y. y Grandvalet, Y .: No hay un estimador imparcial de la varianza de la validación cruzada del pliegue en K, Journal of Machine Learning Research, 2004, 5, 1089-1105 .

(Pensar más en estas cosas está en mi lista de tareas de investigación ..., pero como vengo de la ciencia experimental, me gusta complementar las conclusiones teóricas y de simulación con datos experimentales, lo cual es difícil aquí, ya que necesitaría un gran conjunto de casos independientes para pruebas de referencia)

Actualización: ¿está justificado asumir una distribución biomial?

$k$

$n$

$n$ $p$ $n$

— cbeleites descontentos con SX
fuente

Hola @cbeleites, acabo de comentar que mi análisis de CV da como resultado 2 valores únicos para ese conjunto de datos en particular (algunos otros conjuntos de datos tienen N valores únicos, con N generalmente menos de 5), tal como se describe anteriormente. Dado esto, ¿cómo puedo mostrar que mis predicciones son estables usando solo mi conjunto de datos y mi CV? Con respecto a una distribución binomial, estaba considerando el intervalo Agresti-Coull (puede funcionar para una alta tasa de éxito / 100% de éxito sin fallar). Parece que estás diciendo que puedo usar una distribución binomial, pero aún no estoy claro cómo puedo justificar esa suposición del mismo problema de éxito.

— Sean

p

$p$

@amoeba: No tengo idea de cómo combinar la distribución binomial con la distribución desconocida debido a la inestabilidad en un intervalo de confianza. Así que informo los percentiles observados para la estabilidad (in) y el ci binomial para el tamaño de muestra de prueba finita. Cómo combinarlos es una de las preguntas de investigación que recuerdo en mi cabeza, pero hasta ahora no he encontrado una solución ni he conocido a nadie que lo haya hecho. Supongo que llegamos a la vanguardia de la investigación ...

— Cbeleites descontentos con SX

@Sean: ¿Has visto mi pregunta reciente sobre temas relacionados? Hay una discusión muy interesante (para mí) en los comentarios, y actualmente estoy trabajando en algunas simulaciones. ¡Llegué a creer que la suposición binomial está muy mal! También podría estar interesado en varias referencias proporcionadas allí que afirman lo mismo.

— ameba dice Reinstate Monica

@Sean: Trataré de mantener estos dos hilos actualizados, lo que significa que después (y si) el problema se aclare aún más, intentaré resumir la situación allí y también proporcionar una nueva respuesta aquí. Por ahora, ¿has notado este documento vinculado en el otro hilo? Los autores discuten exactamente su pregunta y proporcionan un procedimiento de arranque que, según ellos, funciona bien. Si tuviera que escribir una respuesta a su pregunta en este momento, recomendaría su procedimiento. Pero tendría sentido primero verificar 24 documentos que citan ese papel.

— ameba dice Reinstate Monica

Creo que su idea de repetir la validación cruzada muchas veces es correcta.

Repita su CV, digamos 1000 veces, cada vez dividiendo sus datos en 10 partes (para CV 10 veces) de una manera diferente ( no mezcle las etiquetas). Obtendrá 1000 estimaciones de la precisión de la clasificación. Por supuesto, reutilizará los mismos datos, por lo que estas 1000 estimaciones no serán independientes. Pero esto es similar al procedimiento bootstrap: puede tomar la desviación estándar sobre estas precisiones como el error estándar de la media de su estimador de precisión general. O un intervalo de percentil del 95% como el intervalo de confianza del 95%.

Alternativamente, puede combinar el bucle de validación cruzada y el bucle bootstrap, y simplemente seleccionar al azar (quizás al azar estratificado) el 10% de sus datos como un conjunto de prueba, y hacerlo 1000 veces. El mismo razonamiento que el anterior se aplica aquí también. Sin embargo, esto dará como resultado una mayor variación sobre las repeticiones, por lo que creo que el procedimiento anterior es mejor.

Si su tasa de clasificación errónea es 0.00, su clasificador comete cero errores y si esto sucede en cada iteración de arranque, obtendrá un intervalo de confianza amplio de cero. Pero esto simplemente significaría que su clasificador es bastante perfecto, muy bueno para usted.

— ameba dice reinstalar Monica
fuente

Hola @amoeba, gracias por tu respuesta. ¿Le importaría explicar un poco más sobre su primera sugerencia al repetir el CV 1000 veces al permutar las muestras al azar? ¿Debería haber una proporción preestablecida de conjunto de prueba: conjunto de entrenamiento (por ejemplo, 10:90 para la validación cruzada 10 veces)? Supongo que no estoy claro cómo repetir la validación 10 veces aumentaría la variación con el tiempo.

— Sean

Me temo que el segundo procedimiento que sugirió @amoeba es demasiado optimista: un clasificador no perfecto puede tener un rendimiento perfecto en un conjunto de datos dado (por ejemplo, suponga que solo tiene 4 muestras; es un 1: 8 para clasificarlas todas) correctamente por casualidad). Como observó la ameba, medir la varianza sobre diferentes asignaciones de pliegues de prueba de tren producirá un intervalo de confianza de ancho 0, que es claramente incorrecto en este caso.

— Trisoloriansunscreen

Creo que, en última instancia, este problema se reduce a encontrar la probabilidad de observar datos que son diferentes de lo que ya no he observado. Obtener intervalos de confianza para mi muestra es lo que @amoeba sugirió para mi pregunta original (utilicé pliegues aleatorios para cada iteración CV), y el resultado parece más realista (IC 95%: [0.0028, 0.0033]). Sin embargo, no sé si hay otra técnica que sería mejor para la predicción de datos futuros. ¿Quizás algún tipo de enfoque basado en modelos en el que ajusto curvas a mis datos y calculo su superposición?

— Sean

@amoeba: Gracias por la aclaración, supongo que no leí tu respuesta con suficiente cuidado. Sin embargo, todavía estoy preocupado por un sesgo optimista de este enfoque (ambos procedimientos). Al medir la precisión al intentar diferentes divisiones de CV, calcula la variabilidad causada por la división arbitraria. Sin embargo, ignora el hecho de que todos sus datos son una muestra aleatoria de una mayor población de observaciones (que no recopiló). Si tiene un pequeño conjunto de datos que por casualidad logra un rendimiento perfecto (independientemente de las divisiones de CV), su intervalo de confianza es cero y esto es incorrecto.

— Trisoloriansunscreen

@amoeba: Es complicado, ya que no puede arrancar las observaciones por sí mismo (considere un clasificador vecino más cercano en tal caso). Estoy luchando con ese problema yo mismo, veamos si a alguien se le ocurre una idea.

— Trisoloriansunscreen

El error de clasificación es tanto discontinuo como una regla de puntuación incorrecta. Tiene baja precisión, y la optimización selecciona las características incorrectas y les da los pesos incorrectos.

— Frank Harrell
fuente

Esto difícilmente puede ser un problema para el OP si obtiene una precisión de clasificación de validación cruzada del 99-100%.

— ameba dice Reinstate Monica

@amoeba: Puede ser un problema también si se observan proporciones correctas cercanas al 100 o 0%: en contraste con las medidas de desempeño que dependen de puntajes continuos, cualquier tipo de desempeño que se mide después de dicotomizar (endurecer) el puntaje de clasificación continua no puede indicar las predicciones se acercan al límite de decisión siempre que estén en el lado correcto. Sin embargo, en mi humilde opinión, hay razones válidas para informar las medidas de rendimiento de tipo proporcional (por ejemplo, si sus lectores / colaboradores las entienden, pero no entienden, por ejemplo, las puntuaciones de Brier). No quería abrir eso ...

— cbeleites descontento con SX

... línea de discusión ya que no había indicios de optimización en la pregunta (que es donde esto se vuelve realmente importante).

— Cbeleites descontento con SX

Si calcula la proporción clasificada "correctamente", debe hacerlo por una razón, por ejemplo, para emitir un juicio o tomar una medida. La proporción es engañosa para estos fines.

— Frank Harrell

@FrankHarrell: Bueno, supongo que la razón es informarlo en un documento. ¿Crees que las personas deberían dejar de informar las precisiones de clasificación?

— ameba dice Reinstate Monica