Medición del rendimiento de diferentes clasificadores con diferentes tamaños de muestra


12

Actualmente estoy usando varios clasificadores diferentes en varias entidades extraídas del texto, y uso la precisión / recuperación como un resumen de qué tan bien se desempeña cada clasificador por separado en un conjunto de datos dado.

Me pregunto si hay una manera significativa de comparar el rendimiento de estos clasificadores de manera similar, pero que también tenga en cuenta los números totales de cada entidad en los datos de prueba que se están clasificando.

Actualmente, estoy usando precisión / recuperación como una medida de rendimiento, por lo que podría tener algo como:

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

Sin embargo, el conjunto de datos en el que los estoy ejecutando podría contener 100k personas, 5k compañías, 500 quesos y 1 huevo.

Entonces, ¿hay una estadística resumida que pueda agregar a la tabla anterior que también tenga en cuenta el número total de cada elemento? ¿O hay alguna forma de medir el hecho de que, por ejemplo, 100% prec / rec en el clasificador de huevo podría no ser significativo con solo 1 elemento de datos?

Supongamos que tenemos cientos de clasificadores de este tipo, creo que estoy buscando una buena manera de responder preguntas como "¿Qué clasificadores tienen un rendimiento inferior? ¿Qué clasificadores carecen de suficientes datos de prueba para saber si tienen un rendimiento inferior?".


Si tiene diferentes clasificadores capacitados en diferentes conjuntos de datos, ¿cómo puede compararlos de manera significativa? Me vienen a la mente manzanas y naranjas, tiza y queso. Además, si tiene clasificadores multiclase, ¿cómo calcula la precisión y la recuperación? Incluso saber que N = 1 no es necesariamente útil: si solo hay un huevo en el mundo, su clasificador de huevos está bien.
Bull

Son diferentes clasificadores entrenados en los mismos conjuntos de datos, por ejemplo, sabemos que tenemos un documento que trata sobre manzanas y naranjas, por lo que ejecutamos un clasificador de manzanas para determinar el tipo de manzana de la que habla, y un clasificador de naranja para determinar el tipo de naranja. habla de. Si nuestros documentos son 99% sobre manzanas, 1% sobre naranjas, y ambos clasificadores tienen el mismo prec / rec (sumando filas / columnas sobre la matriz de confusión), ¿hay alguna información que podamos presentar que tenga en cuenta las diferencias en las cantidades de cada uno? ? (puede ser que no, no lo hay, que es una respuesta con la que estaría feliz)
Dave Challis

Respuestas:


5

Debe observar el intervalo de confianza de la estadística. Esto ayuda a medir cuánta incertidumbre en la estadística, que es en gran medida una función del tamaño de la muestra.


2

En mi opinión, es difícil comparar el rendimiento cuando hay una gran diferencia de tamaño. En este enlace, (verifíquelo aquí en Wikipedia http://en.wikipedia.org/wiki/Effect_size ), puede ver diferentes estrategias.

El que sugiero es uno relacionado con la varianza. Por ejemplo, considere el rendimiento del clasificador (100%) y el clasificador de persona (65%). El error mínimo que cometes con el clasificador anterior es del 100%. Sin embargo, el error mínimo que puede cometer con el último clasificador es 10e-5.

Entonces, una forma de comparar clasificador es tener presente esta Regla de los Tres ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics) donde puede comparar el rendimiento y su variabilidad.

Otra posibilidad es la F-measure, que es una combinación de Precisión y Recuperación, y de alguna manera es independiente del tamaño del efecto.


2

El número de datos en la clase a veces se conoce como el supportdel clasificador. Le indica cuánto puede confiar en su resultado, como un valor p le permitiría confiar o desconfiar de alguna prueba.

Un enfoque que puede usar es calcular varias medidas de rendimiento del clasificador, no solo precisión y recuperación, sino también tasa positiva verdadera, tasa positiva falsa, especificidad, sensibilidad, probabilidad positiva, probabilidad negativa, etc. y ver si son consistentes entre sí . Si una de las medidas alcanza su límite máximo (100%) y la otra no, a menudo, en mi experiencia, es indicativo de que algo salió mal (por ejemplo, mal soporte, clasificador trivial, clasificador sesgado, etc.). Consulte esto para obtener una lista de medidas de rendimiento del clasificador.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.