Creo que el submuestreo (submuestreo) es un método popular para controlar el desequilibrio de clase en el nivel base, lo que significa que soluciona la raíz del problema. Entonces, para todos sus ejemplos, seleccionar aleatoriamente 1,000 de la mayoría de la clase cada vez funcionaría. Incluso podría jugar haciendo 10 modelos (10 pliegues de 1,000 mayorías versus 1,000 minorías) para que use todo su conjunto de datos. Puede usar este método, pero nuevamente está tirando 9,000 muestras a menos que pruebe algunos métodos de conjunto. Solución fácil, pero difícil de obtener un modelo óptimo basado en sus datos.
El grado en que necesita controlar el desequilibrio de clase se basa en gran medida en su objetivo. Si le importa la clasificación pura, entonces el desequilibrio afectaría el 50% de probabilidad de corte para la mayoría de las técnicas, por lo que consideraría reducir el muestreo. Si solo le importa el orden de las clasificaciones (generalmente quiere que los positivos sean más altos que los negativos) y usa una medida como AUC, el desequilibrio de clase solo sesgará sus probabilidades, pero el orden relativo debería ser decentemente estable para la mayoría de las técnicas.
La regresión logística es buena para el desequilibrio de clase porque siempre que tenga> 500 de la clase minoritaria, las estimaciones de los parámetros serán lo suficientemente precisas y el único impacto será en la intercepción, que puede corregirse si eso es algo que podría querer. La regresión logística modela las probabilidades en lugar de solo las clases, por lo que puede hacer más ajustes manuales para satisfacer sus necesidades.
Muchas técnicas de clasificación también tienen un argumento de ponderación de clase que lo ayudará a centrarse más en la clase minoritaria. Penalizará una clasificación de faltas de una verdadera clase minoritaria, por lo que su precisión general sufrirá un poco, pero comenzará a ver más clases minoritarias que están clasificadas correctamente.