Trato con un problema de detección de fraude (similar a la calificación crediticia). Como tal, existe una relación altamente desequilibrada entre las observaciones fraudulentas y no fraudulentas.
http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html proporciona una excelente visión general de las diferentes métricas de clasificación. Precision and Recallo kappaambos parecen ser una buena opción:
Una forma de justificar los resultados de tales clasificadores es comparándolos con los de los clasificadores de referencia y demostrando que son mejores que las predicciones de probabilidad aleatoria.
Según tengo entendido, kappapodría ser la mejor opción aquí, ya que se tiene en cuenta la posibilidad aleatoria . Del kappa de Cohen en inglés simple entiendo que se kappatrata del concepto de ganancia de información:
[...] una precisión observada del 80% es mucho menos impresionante con una precisión esperada del 75% frente a una precisión esperada del 50% [...]
Por lo tanto, mis preguntas serían:
- ¿Es correcto asumir
kappaque es una métrica de clasificación más adecuada para este problema? - ¿El simple uso
kappaevita los efectos negativos del desequilibrio en el algoritmo de clasificación? ¿ Sigue siendo necesario el muestreo basado en costos (rem / up) o basado en costos (ver http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )?