Actualmente estoy usando varios clasificadores diferentes en varias entidades extraídas del texto, y uso la precisión / recuperación como un resumen de qué tan bien se desempeña cada clasificador por separado en un conjunto de datos dado.
Me pregunto si hay una manera significativa de comparar el rendimiento de estos clasificadores de manera similar, pero que también tenga en cuenta los números totales de cada entidad en los datos de prueba que se están clasificando.
Actualmente, estoy usando precisión / recuperación como una medida de rendimiento, por lo que podría tener algo como:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Sin embargo, el conjunto de datos en el que los estoy ejecutando podría contener 100k personas, 5k compañías, 500 quesos y 1 huevo.
Entonces, ¿hay una estadística resumida que pueda agregar a la tabla anterior que también tenga en cuenta el número total de cada elemento? ¿O hay alguna forma de medir el hecho de que, por ejemplo, 100% prec / rec en el clasificador de huevo podría no ser significativo con solo 1 elemento de datos?
Supongamos que tenemos cientos de clasificadores de este tipo, creo que estoy buscando una buena manera de responder preguntas como "¿Qué clasificadores tienen un rendimiento inferior? ¿Qué clasificadores carecen de suficientes datos de prueba para saber si tienen un rendimiento inferior?".