Media (puntajes) vs Puntaje (concatenación) en validación cruzada

TLDR:

Mi conjunto de datos es bastante pequeño (120) muestras. Mientras realizo la validación cruzada 10 veces, ¿debería:

¿Recolecta las salidas de cada pliegue de prueba, las concatena en un vector y luego calcula el error en este vector completo de predicciones (120 muestras)?
O debería lugar calcular el error en las salidas que recibo en cada pliegue (con 12 muestras por veces) y, a continuación, obtener mi estimación de error final como el promedio de las estimaciones de error de plegado 10?

¿Hay algún artículo científico que defienda las diferencias entre estas técnicas?

Antecedentes: relación potencial con las puntuaciones macro / micro en la clasificación de etiquetas múltiples:

Creo que esta pregunta puede estar relacionada con la diferencia entre los promedios micro y macro que a menudo se usan en una tarea de clasificación de etiquetas múltiples (por ejemplo, 5 etiquetas).

En la configuración de múltiples etiquetas, los puntajes de micro promedio se calculan haciendo una tabla de contingencia agregada de verdadero positivo, falso positivo, verdadero negativo, falso negativo para las 5 predicciones de clasificador en 120 muestras. Esta tabla de contingencia luego se usa para calcular la micro precisión, el micro recuerdo y la micro medida f. Entonces, cuando tenemos 120 muestras y cinco clasificadores, las micro medidas se calculan en 600 predicciones (120 muestras * 5 etiquetas).

Cuando se utiliza la variante Macro , se calculan las medidas (precisión, recuperación, etc.) de forma independiente en cada etiqueta y, finalmente, se promedian estas medidas.

La idea detrás de la diferencia entre las estimaciones de micro vs macro puede extenderse a lo que se puede hacer en una configuración de pliegue en K en un problema de clasificación binaria. Para 10 veces, podemos promediar más de 10 valores ( medida macro ) o concatenar los 10 experimentos y calcular las micro medidas.

Antecedentes: ejemplo ampliado:

El siguiente ejemplo ilustra la pregunta. Digamos que tenemos 12 muestras de prueba y tenemos 10 pliegues:

Pliegue 1 : TP = 4, FP = 0, TN = 8 Precisión = 1.0
Pliegue 2 : TP = 4, FP = 0, TN = 8 Precisión = 1.0
Pliegue 3 : TP = 4, FP = 0, TN = 8 Precisión = 1.0
Pliegue 4 : TP = 0, FP = 12, Precisión = 0
Pliegue 5 .. Pliegue 10 : Todos tienen el mismo TP = 0, FP = 12 y Precisión = 0

donde usé la siguiente notación:

TP = # de verdaderos positivos, FP = # falso positivo, TN = # de verdaderos negativos

Los resultados son:

Precisión promedio en 10 pliegues = 3/10 = 0.3
Precisión en la concatenación de las predicciones de los 10 pliegues = TP / TP + FP = 12/12 + 84 = 0.125

¡Tenga en cuenta que los valores 0.3 y 0.125 son muy diferentes !

classification cross-validation small-sample

— usuario13420
fuente

El CV no es realmente una gran medida para predecir el rendimiento futuro. La variación es demasiado pequeña. Es mejor ir con bootstrap para validar su modelo.

— user765195

@ user765195: ¿podría respaldar su reclamo con algunas citas?

— Zach

He estado buscando pero no he encontrado ninguna literatura sobre el método de CV agregado. Parece ser una forma más apropiada de calcular la medida, ya que tiene menos varianza.

— user13420

@Zach, hay una discusión aquí, en el libro de Harrell: tinyurl.com/92fsmuv (mira el último párrafo en la página 93 y el primer párrafo en la página 94.) Trataré de recordar otras referencias que son más explícitas.

— user765195

k

$k$

Respuestas:

La diferencia descrita es falsa en mi humilde opinión.

Lo observará solo si la distribución de casos verdaderamente positivos (es decir, el método de referencia dice que es un caso positivo) es muy desigual en los pliegues (como en el ejemplo) y el número de casos de prueba relevantes (el denominador de la medida de rendimiento de lo que estamos hablando, aquí lo verdaderamente positivo) no se tiene en cuenta al promediar los promedios de pliegue.

$\frac{4}{12} = \frac{1}{3}$

editar: la pregunta original también preguntó sobre iterar / repetir la validación:

$k$

¿Cuánto cambian las predicciones si los datos de entrenamiento se alteran al intercambiar algunas muestras de entrenamiento?
Es decir, ¿cuánto varían las predicciones de diferentes modelos "sustitutos" para la misma muestra de prueba?

Estabas pidiendo artículos científicos :

Los términos de búsqueda son validación cruzada iterativa o repetida.
Artículos que dicen "deberías hacer esto":
- Dougherty, ER; Sima, C .; Hua, J .; Hanczar, B. y Braga-Neto, UM: rendimiento de los estimadores de error para la clasificación de la bioinformática actual, 2010, 5, 53-67. Es un buen punto de partida.
- Para datos espectroscópicos, hice algunas simulaciones Beleites, C .; Baumgartner, R .; Bowman, C .; Somorjai, R .; Steiner, G .; Salzer, R. y Sowa, MG: reducción de la variación en la estimación del error de clasificación utilizando conjuntos de datos dispersos. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.
  preprint
Lo uso regularmente, por ejemplo , Beleites, C .; Geiger, K .; Kirsch, M .; Sobottka, SB; Schackert, G. y Salzer, R .: Clasificación espectroscópica Raman de tejidos de astrocitoma: utilizando información de referencia blanda. Anal Bioanal Chem, 2011, 400, 2801-2816

Subestimación de la varianza En última instancia, su conjunto de datos tiene un tamaño de muestra finito (n = 120), independientemente de cuántas iteraciones de bootstrap o validación cruzada realice.

Tiene (al menos) 2 fuentes de variación en los resultados de validación de remuestreo (validación cruzada y fuera de arranque):
- varianza debido al número finito de muestra (prueba)
- varianza debido a la inestabilidad de las predicciones de los modelos sustitutos
Si sus modelos son estables, entonces
- $k$
- Sin embargo, la estimación del rendimiento todavía está sujeta a variaciones debido al número finito de muestras de prueba.
- Si su estructura de datos es "simple" (es decir, un único vector de medición para cada caso estadísticamente independiente), puede suponer que los resultados de la prueba son los resultados de un proceso de Bernoulli (arrojar monedas) y calcular la varianza del conjunto de pruebas finitas.
$\frac{n}{k}$

— cbeleites apoya a Monica
fuente

Además, estoy haciendo una clasificación de etiquetas múltiples con cuatro clasificadores. Por lo tanto, quiero analizar las medidas F micro y macro en las 4 tareas. ¿Supongo que la validación cruzada "combinada" sería incluso necesaria en este caso? Además, no estoy seguro de si el resultado inicial es el mismo que el método de CV "combinado" que menciono anteriormente. También hubo un debate en stats.stackexchange.com/questions/4868/…

— user13420

@ user13420: tampoco estoy seguro de lo que quieres decir con CV combinado ... Aquí hay una respuesta en la que escribí lo que significa para mí la validación cruzada y fuera de arranque: stats.stackexchange.com/a/26548/4598

— cbeleites soporta Mónica

@ user13420: la terminología es muy diferente en diferentes campos. ¿Puede actualizar su respuesta con información sobre las medidas F micro y macro? Sin embargo, la validación cruzada es una técnica muy general: es un esquema para calcular resultados de pruebas de modelos. Puede calcular cualquier medida de rendimiento que necesite como entrada el valor de referencia para cada caso y el valor predicho para cada caso.

— cbeleites apoya a Monica el

El CV combinado significa que usted recopila la predicción de cada reserva y calcula la medida después de las 10 reservas. Entonces, si mido la precisión, recuerdo para una tarea de clasificación, tendría una precisión única, recordar en lugar de 10 valores y un promedio (que es el caso en el CV habitual)

— user13420

Gracias cbeleites: agregué esas aclaraciones porque encontré un poco confuso el texto de la pregunta original. Espero que mis ediciones sean para mejor, traté de resaltar mejor el dilema, pero por favor avíseme lo contrario. Dicho todo esto, cuando mencionó que la diferencia le parece falsa, me gustaría señalar que @ user13420 obtiene dos resultados sustancialmente diferentes en la parte inferior de su OP cuando sigue los enfoques 1 o 2 . Me he encontrado enfrentando este dilema yo mismo. Sin embargo, creo que el segundo enfoque es más común, pero sería genial conocerlo.

— Josh

Debes hacer score (concatenación). Es un error común en el campo que la media (puntajes) es la mejor manera. Puede introducir más sesgos en su estimación, especialmente en clases raras, como en su caso. Aquí hay un documento que respalda esto:

http://www.kdd.org/exploration_files/v12-1-p49-forman-sigkdd.pdf

En el documento, usan "Favg" en lugar de su "media (puntajes)" y "Ftp, fp" en lugar de su "puntaje (concatenación)"

Ejemplo de juguete:

Imagine que tiene una validación cruzada de 10 veces y una clase que aparece 10 veces, y está asignada para que aparezca una vez en cada doblez. Además, la clase siempre se predice correctamente, pero hay un solo falso positivo en los datos. El pliegue de prueba que contiene el falso positivo tendrá un 50% de precisión, mientras que todos los demás pliegues tendrán un 100%. Entonces, promedio (puntajes) = 95%. Por otro lado, el puntaje (concatenación) es 10/11, aproximadamente el 91%.

Si suponemos que la población real está bien representada por los datos, y que los 10 clasificadores de validación cruzada representan bien el clasificador final, entonces la precisión del mundo real sería del 91%, y la estimación promedio (puntajes) del 95% está sesgada .

En la práctica, no querrá hacer esas suposiciones. En cambio, puede usar estadísticas de distribución para estimar la confianza, permutando aleatoriamente los datos y volviendo a calcular la puntuación (concatenación) varias veces, así como el arranque.

— usuario2255970
fuente

Este es un gran papel! Creo que el resultado en el lenguaje de la pregunta original (no utilizada en el documento) es que al calcular la puntuación F, utilice un enfoque de "micro promediado"; específicamente, sume el TP, TN, FP, FN de todos los pliegues, para obtener una matriz de confusión única, y luego calcule el puntaje F (u otras métricas deseadas).

— travelingbones