Algunas posibilidades me vienen a la mente.
Por lo general, mirar la tasa de aciertos general no es una muy buena idea, ya que dependerá de la composición del conjunto de pruebas si el rendimiento de las diferentes clases difiere. Por lo tanto, al menos, debe especificar (y justificar) la frecuencia relativa de las clases en los datos de su prueba para obtener un valor significativo.
En segundo lugar, como ya dijo @Shorack, especifique qué tipos de error son tan importantes. A menudo, el clasificador necesita cumplir ciertos criterios de rendimiento para ser útil (y la precisión general rara vez es la medida adecuada). Existen medidas como la sensibilidad, la especificidad, el valor predictivo positivo y negativo que tienen en cuenta las diferentes clases y los diferentes tipos de clasificación errónea. Puede decir que estas medidas responden diferentes preguntas sobre el clasificador:
- sensibilidad: ¿Qué fracción de casos verdaderamente pertenecientes a la clase C se reconoce como tal?
- especificidad: ¿Qué fracción de casos que verdaderamente no pertenecen a la clase C se reconoce como tal?
- Valor predictivo positivo: dado que el clasificador predice la clase C, ¿cuál es la probabilidad de que esta predicción sea correcta?
- valor predictivo negativo: dado que el clasificador predice que el caso no es de clase C, ¿cuál es la probabilidad de que esta predicción sea correcta?
Estas preguntas a menudo permiten formular especificaciones que el clasificador debe necesitar para ser útil.
Los valores predictivos son a menudo más importantes desde el punto de vista de la aplicación práctica del clasificador: están condicionados a la predicción, que es la situación en la que se encuentra al aplicar el clasificador (un paciente generalmente no está interesado en saber qué tan probable La prueba consiste en reconocer los casos de enfermedad, pero más bien la probabilidad de que el diagnóstico indicado sea correcto). Sin embargo, para calcularlos adecuadamente, debe conocer las frecuencias relativas de las diferentes clases en la población para la que se utiliza el clasificador (parece que tiene esta información, por lo que no hay nada que le impida mirar eso).
También puede ver la ganancia de información que le proporciona una predicción positiva o negativa. Esto se mide por la razón de probabilidad positiva y negativa, LR⁺ y LR⁻. Brevemente, le dicen cuánto cambia la predicción las probabilidades hacia la clase en cuestión. (Vea mi respuesta aquí para una explicación más detallada)
Para su clasificador trivial, las cosas se ven así: utilizaré la clase "0" como la clase en cuestión, por lo que "positivo" significa clase "0". De 100 casos, se predice que 100 son positivos (para pertenecer a la clase 0). 97 de ellos realmente lo hacen, 3 no. La sensibilidad para la clase 0 es del 100% (se reconocieron los 97 casos que realmente pertenecen a la clase 0), la especificidad es 0 (ninguno de los otros casos se reconoció). El valor predictivo positivo (suponiendo que la frecuencia relativa 97: 3 es representativa) es del 97%, el valor predictivo negativo no puede calcularse ya que no se produjo predicción negativa.
L R+= sensibilidad1 - especificidad= 1
L R-= 1 - sensibilidadespecificidad= 00 0
Dirección de pensamientos completamente diferente: mencionas que te gustaría evaluar diferentes clasificadores. Eso suena un poco a comparación o selección de clasificadores. La advertencia con las medidas que analizo anteriormente es que están sujetas a una incertidumbre aleatoria muy alta (lo que significa que necesita muchos casos de prueba) si las evalúa en las etiquetas de clase "duras". Si su predicción es principalmente continua (métrica, por ejemplo, probabilidad posterior), puede usar medidas relacionadas que analicen el mismo tipo de pregunta pero no use fracciones de casos sino medidas continuas, consulte aquí . Estos también serán más adecuados para detectar pequeñas diferencias en las predicciones.
(@FrankHarrell le dirá que necesita "reglas de puntuación adecuadas", por lo que ese es otro término de búsqueda a tener en cuenta).