Elegir entre funciones de pérdida para la clasificación binaria

Trabajo en un dominio problemático donde la gente suele informar ROC-AUC o AveP (precisión promedio). Sin embargo, recientemente encontré documentos que optimizan la pérdida de registro , mientras que otros informan pérdida de bisagra .

Si bien entiendo cómo se calculan estas métricas, me resulta difícil comprender las compensaciones entre ellas y cuál es bueno para qué exactamente.

Cuando se trata de ROC-AUC vs Precision-Recall, este hilo analiza cómo la maximización de ROC-AUC puede verse como el uso de un criterio de optimización de pérdidas que penaliza "clasificar un verdadero negativo al menos tan grande como un verdadero positivo" (suponiendo que más alto los puntajes corresponden a los positivos). Además, este otro hilo también proporciona una discusión útil de ROC-AUC en contraste con las métricas de Precision-Recall .

Sin embargo, ¿para qué tipo de problemas se preferiría la pérdida de registro sobre, por ejemplo, ROC-AUC , AveP o la pérdida de Bisagra ? Lo más importante, ¿qué tipo de preguntas debería hacerse sobre el problema al elegir entre estas funciones de pérdida para la clasificación binaria?

loss-functions

— Josh
fuente

La referencia más avanzada sobre el tema es [1]. Esencialmente, muestra que todas las funciones de pérdida que especifique convergerán al clasificador Bayes, con tasas rápidas.

La elección entre estos para muestras finitas puede basarse en varios argumentos diferentes:

Si desea recuperar las probabilidades de eventos (y no solo las clasificaciones), entonces la pérdida logística de registro o cualquier otro modelo lineal generalizado (regresión de Probit, regresión de registro de registro complementario, ...) es un candidato natural.
Si solo apunta a la clasificación, SVM puede ser una opción preferida, ya que solo apunta a observaciones en el buondary de clasificación e ignora la observación distante, aliviando así el impacto de la veracidad del modelo lineal asumido.
Si no tiene muchas observaciones, entonces la ventaja en 2 puede ser una desventaja.
Puede haber diferencias computacionales: tanto en el problema de optimización indicado como en la implementación particular que está utilizando.
En pocas palabras: simplemente puede probarlos todos y elegir el mejor intérprete.

[1] Bartlett, Peter L, Michael I Jordan y Jon D McAuliffe. "Convexidad, clasificación y límites de riesgo". Revista de la Asociación Americana de Estadística 101, no. 473 (marzo de 2006): 138–56. doi: 10.1198 / 016214505000000907.

— JohnRos
fuente