TLDR:
Mi conjunto de datos es bastante pequeño (120) muestras. Mientras realizo la validación cruzada 10 veces, ¿debería:
¿Recolecta las salidas de cada pliegue de prueba, las concatena en un vector y luego calcula el error en este vector completo de predicciones (120 muestras)?
O debería lugar calcular el error en las salidas que recibo en cada pliegue (con 12 muestras por veces) y, a continuación, obtener mi estimación de error final como el promedio de las estimaciones de error de plegado 10?
¿Hay algún artículo científico que defienda las diferencias entre estas técnicas?
Antecedentes: relación potencial con las puntuaciones macro / micro en la clasificación de etiquetas múltiples:
Creo que esta pregunta puede estar relacionada con la diferencia entre los promedios micro y macro que a menudo se usan en una tarea de clasificación de etiquetas múltiples (por ejemplo, 5 etiquetas).
En la configuración de múltiples etiquetas, los puntajes de micro promedio se calculan haciendo una tabla de contingencia agregada de verdadero positivo, falso positivo, verdadero negativo, falso negativo para las 5 predicciones de clasificador en 120 muestras. Esta tabla de contingencia luego se usa para calcular la micro precisión, el micro recuerdo y la micro medida f. Entonces, cuando tenemos 120 muestras y cinco clasificadores, las micro medidas se calculan en 600 predicciones (120 muestras * 5 etiquetas).
Cuando se utiliza la variante Macro , se calculan las medidas (precisión, recuperación, etc.) de forma independiente en cada etiqueta y, finalmente, se promedian estas medidas.
La idea detrás de la diferencia entre las estimaciones de micro vs macro puede extenderse a lo que se puede hacer en una configuración de pliegue en K en un problema de clasificación binaria. Para 10 veces, podemos promediar más de 10 valores ( medida macro ) o concatenar los 10 experimentos y calcular las micro medidas.
Antecedentes: ejemplo ampliado:
El siguiente ejemplo ilustra la pregunta. Digamos que tenemos 12 muestras de prueba y tenemos 10 pliegues:
- Pliegue 1 : TP = 4, FP = 0, TN = 8 Precisión = 1.0
- Pliegue 2 : TP = 4, FP = 0, TN = 8 Precisión = 1.0
- Pliegue 3 : TP = 4, FP = 0, TN = 8 Precisión = 1.0
- Pliegue 4 : TP = 0, FP = 12, Precisión = 0
- Pliegue 5 .. Pliegue 10 : Todos tienen el mismo TP = 0, FP = 12 y Precisión = 0
donde usé la siguiente notación:
TP = # de verdaderos positivos, FP = # falso positivo, TN = # de verdaderos negativos
Los resultados son:
- Precisión promedio en 10 pliegues = 3/10 = 0.3
- Precisión en la concatenación de las predicciones de los 10 pliegues = TP / TP + FP = 12/12 + 84 = 0.125
¡Tenga en cuenta que los valores 0.3 y 0.125 son muy diferentes !