Prueba de clasificación en datos de desequilibrio sobremuestreados

Estoy trabajando en datos gravemente desequilibrados. En la literatura, se utilizan varios métodos para reequilibrar los datos mediante re-muestreo (sobremuestreo o submuestreo). Dos buenos enfoques son:

SMOTE: Técnica de sobremuestreo de minorías sintéticas ( SMOTE )
ADASYN: Enfoque de muestreo sintético adaptativo para el aprendizaje desequilibrado ADASYN )

He implementado ADASYN debido a su naturaleza adaptativa y su facilidad de extensión a problemas de varias clases.

Mi pregunta es cómo probar los datos sobremuestreados producidos por ADASYN (o cualquier otro método de sobremuestreo). No está claro en los dos artículos mencionados cómo realizaron sus experimentos. Hay dos escenarios:

1- Sobremuestrear todo el conjunto de datos, luego dividirlo en conjuntos de entrenamiento y prueba (o validación cruzada).

2- Después de dividir el conjunto de datos original, realice un sobremuestreo solo en el conjunto de entrenamiento y pruebe en el conjunto de prueba de datos original (podría realizarse con validación cruzada).

En el primer caso, los resultados son mucho mejores que sin sobremuestreo, pero me preocupa si hay un sobreajuste. Mientras que en el segundo caso, los resultados son ligeramente mejores que sin sobremuestreo y mucho peores que en el primer caso. Pero la preocupación con el segundo caso es que si todas las muestras de clase minoritaria van al conjunto de prueba, entonces no se logrará ningún beneficio con el sobremuestreo.

No estoy seguro de si hay alguna otra configuración para probar dichos datos.

— Tarifas
fuente

Respuestas:

Algunos comentarios

La opción (1) es una muy mala idea. Las copias del mismo punto pueden terminar tanto en el conjunto de entrenamiento como en el de prueba. Esto permite que el clasificador haga trampa, porque cuando intenta hacer predicciones en el conjunto de prueba, el clasificador ya habrá visto puntos idénticos en el conjunto de trenes. El objetivo de tener un conjunto de prueba y un conjunto de trenes es que el conjunto de pruebas debe ser independiente del conjunto de trenes.

$k$

— Stefan Wager
fuente

Gracias Stefan por la respuesta. Pero quiero aclarar un punto: los métodos que mencioné crean instancias "sintéticas" de los datos, no exactamente lo mismo que el original. Por lo tanto, no es exactamente como si estuviera probando los mismos datos de entrenamiento. Pero, aún no estoy seguro si la opción 1 es un enfoque válido.

— Tarifas

¡OK veo! Sin embargo, el problema con (1) aún se mantiene, incluso si crea datos "sintéticos", porque los datos sintéticos suelen ser muy similares a los datos originales que imitan.

— Stefan Wager

@StefanWager ¿qué pasa con la distribución del conjunto de pruebas? ¿Debería ser el mismo que el conjunto de datos original?

— wannik

¿alguna referencia de artículos para respaldar esta afirmación?

— girl101

El enfoque de @ stefan es correcto: nunca aumenta o sintetiza su conjunto de validación porque esa es su prueba (prueba) de cómo está aprendiendo su modelo, necesita datos originales para hacerlo

— M090009

La segunda (2) opción es la forma correcta de hacerlo. Las muestras sintéticas que crea con las técnicas de sobremuestreo no son ejemplos reales sino sintéticos. Estos no son válidos para fines de prueba, mientras que todavía están bien para el entrenamiento. Su objetivo es modificar el comportamiento del clasificador sin modificar el algoritmo.

— user53909
fuente