Crear un conjunto de datos desequilibrado


11

Me gustaría probar mi modelo entrenado en un conjunto de datos desequilibrado. ¿Hay algún algoritmo disponible para generar datos sintéticos a partir de un conjunto de datos etiquetado equilibrado (spam / no spam)?


Siempre puede desequilibrar cualquier conjunto de datos simplemente submuestreando una clase.
user2974951

Respuestas:


8

Pruebe SMOTE , es un algoritmo utilizado para sobremuestreo . Crea muestras sintéticas de la clase que desea sobremuestrear.

Puede usar esto para crear cualquier cantidad de muestras que necesite.


1
¿Se puede utilizar SMOTE para submuestreo también?
Stuart Peterson el

Bueno, puedes obtener un submuestreo de la clase A sobremuestreando la clase no A ...
kjetil b halvorsen

3
@StuartPeterson No, SMOTE es un algoritmo de sobremuestreo, pero hay muchos otros algoritmos de
submuestreo
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.