No conozco una respuesta estándar a esto, pero lo pensé algunas veces y tengo algunas ideas para compartir.
Cuando tiene una matriz de confusión, tiene más o menos una idea de cómo su modelo de clasificación confunde (clasifica mal) las clases. Cuando repites las pruebas de clasificación, terminarás teniendo múltiples matrices de confusión. La pregunta es cómo obtener una matriz de confusión agregada significativa. La respuesta depende de cuál es el significado de significativo (juego de palabras). Creo que no hay una sola versión de significado.
Una forma es seguir la idea aproximada de las pruebas múltiples. En general, prueba algo varias veces para obtener resultados más precisos. Como principio general, se puede razonar que promediar los resultados de las pruebas múltiples reduce la varianza de las estimaciones, por lo que, como consecuencia, aumenta la precisión de las estimaciones. Puede proceder de esta manera, por supuesto, sumando posición por posición y luego dividiendo por el número de pruebas. Puede ir más allá y en lugar de estimar solo un valor para cada celda de la matriz de confusión, también puede calcular algunos intervalos de confianza, valores t, etc. Esto está bien desde mi punto de vista. Pero solo cuenta un lado de la historia.
El otro lado de la historia que podría investigarse es cuán estables son los resultados para las mismas instancias. Para ejemplificar que tomaré un ejemplo extremo. Supongamos que tiene un modelo de clasificación para 3 clases. Suponga que estas clases están en la misma proporción. Si su modelo es capaz de predecir una clase perfectamente y las otras 2 clases con un rendimiento similar al azar, terminará teniendo 0.33 + 0.166 + 0.166 = 0.66 relación de clasificación errónea. Esto puede parecer bueno, pero incluso si observa una matriz de confusión única, no sabrá que su rendimiento en las últimas 2 clases varía enormemente. Múltiples pruebas pueden ayudar. ¿Pero promediar la confusión de las matrices revelaría esto? Mi creencia no lo es. El promedio dará el mismo resultado más o menos, y hacer múltiples pruebas solo disminuirá la varianza de la estimación.
Entonces, otra forma de componer las matrices de confusión implicaría mejor una densidad de predicción para cada instancia. Se puede construir esta densidad contando para cada instancia, el número de veces que se predijo una clase determinada. Después de la normalización, tendrá para cada instancia una densidad de predicción en lugar de una sola etiqueta de predicción. Puede ver que una sola etiqueta de predicción es similar con una densidad degenerada donde tiene una probabilidad de 1 para la clase predicha y 0 para las otras clases para cada instancia separada. Ahora que tiene estas densidades, se puede construir una matriz de confusión al agregar las probabilidades de cada instancia y clase predicha a la celda correspondiente de la matriz de confusión agregada.
Se puede argumentar que esto daría resultados similares al método anterior. Sin embargo, creo que este podría ser el caso a veces, a menudo cuando el modelo tiene poca varianza, el segundo método se ve menos afectado por la forma en que se extraen las muestras de las pruebas y, por lo tanto, es más estable y más cercano a la realidad.
Además, el segundo método podría modificarse para obtener un tercer método, en el que se puede asignar como predicción la etiqueta con la mayor densidad a partir de la predicción de una instancia determinada.
No implementé esas cosas, pero planeo estudiar más porque creo que valdría la pena pasar algún tiempo.