Dado
- un conjunto de datos con instancias junto con clases donde cada instancia pertenece exactamente a una clase
- un clasificador multiclase
Después del entrenamiento y las pruebas, básicamente tengo una tabla con la clase verdadera y la clase predicha para cada instancia en el conjunto de prueba. Entonces, para cada instancia tengo una coincidencia ( ) o una falla ( ).
¿Cómo puedo evaluar la calidad del partido? El problema es que algunas clases pueden tener muchos miembros, es decir, muchas instancias le pertenecen. Obviamente, si el 50% de todos los puntos de datos pertenecen a una clase y mi clasificador final es el 50% correcto en general, no he ganado nada. Podría haber hecho un clasificador trivial que genera esa clase más grande sin importar la entrada.
¿Existe un método estándar para estimar la calidad de un clasificador basado en los resultados conocidos del conjunto de pruebas de coincidencias y aciertos para cada clase? ¿Quizás es importante distinguir las tasas de correspondencia para cada clase en particular?
El enfoque más simple que se me ocurre es excluir las coincidencias correctas de la clase más grande. ¿Qué más?