¿Cómo elegir una métrica de error al evaluar un clasificador?

15

He visto diferentes métricas de error utilizadas en las competiciones de Kaggle: RMS, media cuadrática, AUC, entre otras. ¿Cuál es la regla general para elegir una métrica de error, es decir, cómo sabe qué métrica de error usar para un problema determinado? ¿Hay alguna guía?

machine-learning classification error

— Vishal
fuente

12

El conjunto de métricas de error entre las que puede elegir es diferente entre clasificación y regresión. En el último, intenta predecir un valor continuo, y con la clasificación predice clases discretas como "saludable" o "no saludable". De los ejemplos que mencionó, el error cuadrático medio sería aplicable para la regresión y AUC para la clasificación con dos clases.

Déjame darte un poco más de detalles sobre la clasificación. Usted mencionó AUC como una medida, que es el área bajo la curva ROC, que generalmente solo se aplica a problemas de clasificación binaria con dos clases. Aunque hay maneras de construir una curva ROC para más de dos clases, pierden la simplicidad de la curva ROC para dos clases. Además, las curvas ROC solo pueden construirse si el clasificador elegido genera algún tipo de puntaje asociado con cada predicción. Por ejemplo, la regresión logística le dará probabilidades para cada una de las dos clases. Además de su simplicidad, las curvas ROC tienen la ventaja de que no se ven afectadas por la relación entre las instancias etiquetadas positiva y negativamente en sus conjuntos de datos y no lo obligan a elegir un umbral. Sin embargo, se recomienda no solo mirar la curva ROC sola sino también otras visualizaciones. Recomiendo echar un vistazo a las curvas de recuperación de precisión y las curvas de costo.Una verdadera medida de error, todos tienen sus puntos fuertes y débiles.

La literatura que encontré útil a este respecto es:

Fawcett, T. (2006). Una introducción al análisis ROC . Cartas de reconocimiento de patrones, 27 (8), 861–874.
Drummond, C. y Holte, R. (2006). Curvas de costos: un método mejorado para visualizar el rendimiento del clasificador . Machine Learning, 65 (1), 95–130
Parker, C. (2011). Un análisis de las medidas de rendimiento para clasificadores binarios . 11ª Conferencia Internacional de IEEE 2011 sobre Minería de Datos (pp. 517–526)
Davis, J. y Goadrich, M. (2006). La relación entre las curvas Precision-Recall y ROC . Actas de la 23ª conferencia internacional sobre aprendizaje automático (págs. 233–240). Nueva York, NY, EE. UU .: ACM

Si su clasificador no proporciona algún tipo de puntaje, debe recurrir a las medidas básicas que se pueden obtener de una matriz de confusión que contiene el número de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos. Las visualizaciones mencionadas anteriormente (ROC, recuperación de precisión, curva de costo) se basan en estas tablas obtenidas utilizando un umbral diferente de la puntuación del clasificador. La medida más popular en este caso es probablemente la medida F1 $N$ $N \times N$ $N$ $2 \times 2$ $A$ $A$

— sebp
fuente

1

N

$N$

N \times N

$N \times N$

N

$N$

2 \times 2

$2\times2$

Muchas gracias por señalar este error, lo corregí en la respuesta anterior.

— sebp

5

Permítanme agregar algunas ideas más a las respuestas ya existentes.

De hecho, la mayoría de los clasificadores tienen un puntaje continuo intermedio, en el cual generalmente se aplica un umbral para asignar clases difíciles (debajo de t: clase a, arriba: clase b). Variar este umbral produce el ROC.
En general, no es una buena idea comprimir esa curva en un número. ver, por ejemplo, El caso contra la estimación de precisión para comparar algoritmos de inducción.
Hay muchos ROC diferentes que tienen el mismo AUC, y la utilidad puede variar ampliamente para una aplicación dada.
al revés: la elección del umbral puede estar determinada en gran medida por la aplicación que tenga.
No es necesario que observe el rendimiento del clasificador fuera de estos límites y si elige una métrica, eso debería al menos resumir solo el rango relevante de las otras métricas limitadas.
dependiendo del diseño de su estudio, la fracción general de muestras correctas o mal clasificadas puede ser un resumen apropiado o no, y las conclusiones a las que puede llegar también dependerán del diseño del estudio: ¿Sus datos de prueba reflejan las probabilidades anteriores (prevalencia) de clases? ¿Para la población en la que se supone que debe usarse su clasificador? ¿Fue recolectado de manera estratificada? Esto está estrechamente relacionado con el hecho de que la mayoría de los usuarios de un clasificador están más interesados en los valores predictivos, pero la sensibilidad y la especificidad son mucho más fáciles de medir.
Usted pregunta sobre pautas generales. Una pauta general es que necesitas saber
- qué tipo de rendimiento necesita (sensibilidad, especificidad, valores predictivos, etc. responda preguntas específicas sobre el comportamiento de su clasificador, vea lo que escribí aquí ).
- ¿Qué rangos de trabajo aceptables para estas características de rendimiento para su aplicación?
  Estos pueden variar ampliamente: puede estar dispuesto a aceptar bastantes falsos negativos en la detección de spam, pero eso no sería una configuración aceptable para el diagnóstico del VIH ...

Creo que no podrá encontrar una métrica útil a menos que pueda responder estas preguntas.

Es un poco como si no hubiera almuerzo gratis en la validación del clasificador, tampoco.

— cbeleites apoya a Monica
fuente

2

La tasa de error de clasificación errónea esperada es el método que he usado y visto con más frecuencia. El AUC de la ROC es una medida de un conjunto de reglas de clasificación. Si la idea es comparar un clasificador específico con otro, entonces el AUC no es apropiado. Alguna forma de error de clasificación tiene más sentido ya que representa más directamente el desempeño de la regla de clasificación.

Se ha trabajado mucho para encontrar buenas estimaciones de la tasa de error de clasificación debido al gran sesgo de la estimación de resubstitución y la alta varianza de la exclusión. Bootstrap y estimadores suaves han sido confiscados. Véase, por ejemplo, el artículo de Efron en JASA 1983 sobre las mejoras de arranque sobre la validación cruzada.

Aquí hay un informe técnico de la Universidad de Stanford de 1995 de Efron y Tibshirami que resume la literatura que incluye parte de mi propio trabajo.

— Michael R. Chernick
fuente

Comparar el rendimiento de dos clasificadores en el mismo conjunto de datos es otro tema sobre el que discutir. Especialmente, en el caso de ROC y AUC, hay un par de métodos para comparar las curvas ROC en su conjunto o las estimaciones de AUC. Esas son esencialmente pruebas estadísticas con la hipótesis nula de que el ROC / AUC no difiere. La validación cruzada versus bootstrap es otro tema interesante, recientemente vi un artículo ( dx.doi.org/10.1016/j.csda.2010.03.004 ) sobre eso. Supongo que si consideras todos los aspectos a la vez, puede ser bastante intimidante.

— sebp