Categorización de enfoques para tratar con clases desequilibradas

¿Cuál es la mejor manera de clasificar los enfoques que se han desarrollado para tratar el problema de la clase de desequilibrio?

Este artículo los clasifica en:

Preprocesamiento: incluye métodos de sobremuestreo, submuestreo e híbridos,
Aprendizaje sensible al costo: incluye métodos directos y metaaprendizaje que este último divide en umbrales y muestreo,
Técnicas de conjunto: incluye conjuntos sensibles al costo y preprocesamiento de datos junto con el aprendizaje de conjunto.

La segunda clasificación:

Preprocesamiento de datos: incluye cambio de distribución y ponderación del espacio de datos. El aprendizaje de una clase se considera un cambio de distribución.
Métodos de aprendizaje especiales
Postprocesamiento de predicción: incluye método de umbral y postprocesamiento sensible al costo
Métodos híbridos

El tercer artículo :

Métodos a nivel de datos
Métodos a nivel de algoritmo
Métodos híbridos

La última clasificación también considera el ajuste del producto como un enfoque independiente.

Gracias por adelantado.

machine-learning classification class-imbalance

— ebrahimi
fuente

La respuesta muy breve: ¡todos son los mejores y todos los peores! La clasificación y la minería de datos en general son muy sensibles al contexto. No hay una solución única para todos en este dominio. Por cierto, el mejor enfoque, en términos muy genéricos, suele ser una combinación de las mejores decisiones en diferentes niveles desde la extracción de características hasta el esquema de evaluación.

— mok

@mok Gracias. ¿Podría decirme el peso de la clase en los clasificadores de sklearn, por ejemplo, la regresión logística se clasifica en qué categoría?

— ebrahimi

@ebrahimi, debe caer en el nivel del algoritmo porque solo los pesos se ajustan de acuerdo con un diccionario aprobado o se calculan (deducen) de acuerdo con los valores de y (clase) y los datos permanecen intactos.

— Sanjay Krishna

@SanjayKrishna Muchas gracias. En el caso de la primera categorización, cae en el aprendizaje sensible al costo, ¿no es así? Además, en el caso de la segunda taxonomía, se clasificaría en la tercera categoría, es decir, el procesamiento posterior sensible a los costos. ¿es verdad? La segunda respuesta a esto: stackoverflow.com/questions/32492550/… también es útil.

— ebrahimi

A mi modo de ver, las tres categorizaciones concuerdan en muchas cosas. Por ejemplo, los tres tienen una categoría para los pasos de preprocesamiento.

En general, estoy de acuerdo con la tercera categorización, ya que es más genérica y abarca más cosas.

La categoría de nivel de datos incluye todos los pasos de preprocesamiento relacionados con el desequilibrio de clase (por ejemplo, sobre / bajo muestreo).
Se podría considerar que el nivel de algoritmo incluye las segundas categorías de los dos primeros artículos. Cualquier cambio en el algoritmo que se ocupa del desequilibrio de clase iría aquí (por ejemplo, ponderación de clase).
Finalmente, una categoría híbrida para combinar los dos.

Lo único que falta en los dos primeros artículos son los pasos posteriores al procesamiento, que para ser sinceros, no se usan en la práctica tan a menudo como el otro.

— Soy yo Mario
fuente