(Para dar una respuesta breve a esto :)
Está bien usar un algoritmo de máquina de aumento de gradiente cuando se trata de un conjunto de datos desequilibrado. Cuando se trata de un conjunto de datos fuertemente desequilibrado, es mucho más relevante cuestionar la idoneidad de la métrica utilizada. Potencialmente, deberíamos evitar métricas, como Precisión o Recuperación, que se basan en umbrales arbitrarios, y optar por métricas, como la puntuación de AUCPR o Brier, que brindan una imagen más precisa: vea el excelente hilo CV.SE en: ¿Por qué la precisión no es la ¿La mejor medida para evaluar los modelos de clasificación? para más). De manera similar, podríamos emplear un enfoque sensible al costo al asignar diferentes costos de clasificación errónea (por ejemplo, ver Masnadi-Shirazi y Vasconcelos (2011) Impulso sensible al costopara obtener una visión general y los cambios propuestos a los algoritmos de refuerzo conocidos o para una aplicación interesante en particular con un enfoque más simple, consulte el informe de desafío Boss de Higgs para el algoritmo XGBoost; Chen & He (2015) Higgs Boson Discovery with Boosted Trees proporcionan más detalles).
También vale la pena señalar que si empleamos un clasificador probabilístico (como los GBM) podemos / debemos considerar activamente la calibración de las probabilidades devueltas (por ejemplo, ver Zadrozny y Elkan (2002) Transformando los puntajes del clasificador en estimaciones precisas de probabilidad multiclase o Kull et al. ( 2017) Calibración Beta: una mejora bien fundada y fácil de implementar en la calibración logística para clasificadores binarios ) para aumentar potencialmente el rendimiento de nuestro alumno. Especialmente cuando se trabaja con datos desequilibrados, capturar adecuadamente los cambios de tendencia puede ser más informativo que simplemente etiquetar los datos. En ese sentido, algunos podrían argumentar que los enfoques sensibles al costo no son tan beneficiosos al final (por ejemplo, ver Nikolaou et al. (2016)Algoritmos de impulso sensibles al costo: ¿realmente los necesitamos? ) Sin embargo, para reiterar el punto original, los algoritmos de refuerzo no son inherentemente malos para los datos desequilibrados y, en ciertos casos, pueden ofrecer una opción muy competitiva.