Me gustaría realizar una combinación de sobremuestreo y submuestreo para equilibrar mi conjunto de datos con aproximadamente 4000 clientes divididos en dos grupos, donde uno de los grupos tiene una proporción de aproximadamente el 15%.
He examinado SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) y ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), pero ambos crean nuevas muestras sintéticas utilizando observaciones existentes y, por ejemplo, kNN.
Sin embargo, como muchos de los atributos asociados con los clientes son categóricos, no creo que este sea el camino correcto. Por ejemplo, muchas de mis variables como Region_A y Region_B son mutuamente excluyentes, pero usando kNN las nuevas observaciones pueden colocarse tanto en Region_A como en Region_B. ¿Estás de acuerdo en que esto es un problema?
En ese caso, ¿cómo se realiza el sobremuestreo en R simplemente duplicando las observaciones existentes? ¿O es esta la forma incorrecta de hacerlo?