Actualmente estoy usando XGBoost para la predicción de riesgos, parece estar haciendo un buen trabajo en el departamento de clasificación binaria, pero los resultados de probabilidad están muy lejos, es decir, cambiar el valor de una característica en una observación en una cantidad muy pequeña puede hacer que la probabilidad Salto de salida de 0.5 a 0.99.
Apenas veo salidas en el rango de 0.6-0.8. En todos los casos, la probabilidad es inferior a 0,99 o 1.
Conozco los métodos de calibración posteriores al entrenamiento, como el escalado de Platt y la corrección logística, pero me preguntaba si hay algo que pueda modificar en el proceso de entrenamiento de XGBoost.
Llamo a XGBoost desde diferentes idiomas usando FFI, por lo que sería bueno si puedo solucionar este problema sin introducir otras bibliotecas de calibración, por ejemplo, cambiando la métrica de evaluación de AUC a pérdida de registro.
XGBoost
es bastante robusto frente a los valores atípicos, cuando se compara con otros métodos de vainilla como SVM
.