¿El aumento de gradiente es apropiado para datos con tasas de eventos bajas como 1%?

Estoy tratando de aumentar el gradiente en un conjunto de datos con una tasa de eventos de aproximadamente 1% usando Enterprise miner, pero no produce ningún resultado. Mi pregunta es, dado que es un enfoque basado en un árbol de decisión, ¿es correcto usar el aumento de gradiente con un evento tan bajo?

— usuario2542275
fuente

Se trata de un conjunto de datos desequilibrado. Impulsar es de hecho una buena manera de lidiar con eso. Para obtener más información,

— DaL

Pero para mí, la regresión logística está dando mejores resultados que el bosque aleatorio o el aumento de gradiente. Quería mejorar el rendimiento de mi modelo, probando los árboles potenciados.

— user2542275

El impulso se basa en clasificadores débiles. Teóricamente, cualquier clasificador débil que sea ligeramente mejor que el aleatorio funcionará. En la práctica, diferentes algoritmos son más adecuados para algunos conjuntos de datos, por lo que el clasificador débil que elija es importante. ¿Puede especificar más sobre los algoritmos que utilizó, sus resultados y el conjunto de datos?

— DaL

Okay. Acerca del conjunto de datos: Tamaño de muestra> 4 m, tasa de eventos = 1.2%. El número de predictores que tienen un valor p significativo <0.05 son 150. La regresión logística con las variables más significativas dio un aumento de 3 al 20% de la población. La red neuronal dio un impulso de aproximadamente 2.8. El aumento de gradiente no produjo ningún resultado, hasta que usé muestreo estratificado con pesos anteriores inversos. Pero el rendimiento es pobre.

— user2542275

Como su conjunto de datos es bastante grande, debe tener suficientes muestras de su clase minoritaria, por lo que el problema se debe a un desequilibrio relativo. Tiene bastantes características, pero no demasiadas, pero de hecho, el árbol de decisiones es menos adecuado para dichos conjuntos de datos. Sugiero que cree un conjunto de datos equilibrado y vea qué tan bien funcionan sus algoritmos en él. Entonces podrá aplicar el algoritmo en el conjunto de datos original de la manera que describí en el primer comentario.

— DaL

(Para dar una respuesta breve a esto :)

Está bien usar un algoritmo de máquina de aumento de gradiente cuando se trata de un conjunto de datos desequilibrado. Cuando se trata de un conjunto de datos fuertemente desequilibrado, es mucho más relevante cuestionar la idoneidad de la métrica utilizada. Potencialmente, deberíamos evitar métricas, como Precisión o Recuperación, que se basan en umbrales arbitrarios, y optar por métricas, como la puntuación de AUCPR o Brier, que brindan una imagen más precisa: vea el excelente hilo CV.SE en: ¿Por qué la precisión no es la ¿La mejor medida para evaluar los modelos de clasificación? para más). De manera similar, podríamos emplear un enfoque sensible al costo al asignar diferentes costos de clasificación errónea (por ejemplo, ver Masnadi-Shirazi y Vasconcelos (2011) Impulso sensible al costopara obtener una visión general y los cambios propuestos a los algoritmos de refuerzo conocidos o para una aplicación interesante en particular con un enfoque más simple, consulte el informe de desafío Boss de Higgs para el algoritmo XGBoost; Chen & He (2015) Higgs Boson Discovery with Boosted Trees proporcionan más detalles).

También vale la pena señalar que si empleamos un clasificador probabilístico (como los GBM) podemos / debemos considerar activamente la calibración de las probabilidades devueltas (por ejemplo, ver Zadrozny y Elkan (2002) Transformando los puntajes del clasificador en estimaciones precisas de probabilidad multiclase o Kull et al. ( 2017) Calibración Beta: una mejora bien fundada y fácil de implementar en la calibración logística para clasificadores binarios ) para aumentar potencialmente el rendimiento de nuestro alumno. Especialmente cuando se trabaja con datos desequilibrados, capturar adecuadamente los cambios de tendencia puede ser más informativo que simplemente etiquetar los datos. En ese sentido, algunos podrían argumentar que los enfoques sensibles al costo no son tan beneficiosos al final (por ejemplo, ver Nikolaou et al. (2016)Algoritmos de impulso sensibles al costo: ¿realmente los necesitamos? ) Sin embargo, para reiterar el punto original, los algoritmos de refuerzo no son inherentemente malos para los datos desequilibrados y, en ciertos casos, pueden ofrecer una opción muy competitiva.

— usεr11852
fuente

Creo que la puntuación de Brier es equivalente a la medida de precisión, por lo que tendrá las mismas limitaciones que la precisión al evaluar modelos de eventos raros.

— RobertF

El puntaje de Brier no es equivalente a la precisión. Tenga en cuenta que usamos la probabilidad pronosticada para el cálculo de la puntuación de Brier, mientras que para el cálculo de precisión usamos etiquetas basadas en un umbral estricto de las probabilidades pronosticadas.

— usεr11852

Gracias por aclarar: usar la probabilidad estimada en lugar de 0/1 para la clase predicha tiene más sentido.

— RobertF

Frio. ¡Me alegra que hayamos resuelto eso! :)

— usεr11852