Crear un conjunto de datos desequilibrado

Me gustaría probar mi modelo entrenado en un conjunto de datos desequilibrado. ¿Hay algún algoritmo disponible para generar datos sintéticos a partir de un conjunto de datos etiquetado equilibrado (spam / no spam)?

unbalanced-classes synthetic-data

— Stuart Peterson
fuente

Siempre puede desequilibrar cualquier conjunto de datos simplemente submuestreando una clase.

— user2974951

Pruebe SMOTE , es un algoritmo utilizado para sobremuestreo . Crea muestras sintéticas de la clase que desea sobremuestrear.

Puede usar esto para crear cualquier cantidad de muestras que necesite.

— Mary93
fuente

¿Se puede utilizar SMOTE para submuestreo también?

— Stuart Peterson el

Bueno, puedes obtener un submuestreo de la clase A sobremuestreando la clase no A ...

— kjetil b halvorsen

@StuartPeterson No, SMOTE es un algoritmo de sobremuestreo, pero hay muchos otros algoritmos de

— submuestreo