Respuestas:
Si está probando el rendimiento de un modelo (es decir, no optimizando parámetros), generalmente sumará las matrices de confusión. Piénselo de esta manera, ha dividido sus datos en 10 pliegues diferentes o conjuntos de 'prueba'. Entrena su modelo en 9/10 de los pliegues y prueba el primer pliegue y obtiene una matriz de confusión. Esta matriz de confusión representa la clasificación de 1/10 de los datos. Repite el análisis nuevamente con el siguiente conjunto de 'prueba' y obtiene otra matriz de confusión que representa otro 1/10 de los datos. Agregar esta nueva matriz de confusión a la primera ahora representa el 20% de sus datos. Continúa hasta que haya ejecutado todos sus pliegues, sume todas sus matrices de confusión y la matriz de confusión final represente el rendimiento de ese modelo para todos los datos.. Podría promediar las matrices de confusión, pero eso realmente no proporciona ninguna información adicional de la matriz acumulativa y puede estar sesgado si sus pliegues no son todos del mismo tamaño.
Nota : esto supone un muestreo no repetido de sus datos. No estoy completamente seguro de si esto sería diferente para el muestreo repetido. Se actualizará si aprendo algo o alguien me recomienda un método.