Tengo un problema de clasificación con aproximadamente 1000 muestras positivas y 10000 negativas en el conjunto de entrenamiento. Entonces este conjunto de datos está bastante desequilibrado. El bosque aleatorio simple solo está tratando de marcar todas las muestras de prueba como una clase mayoritaria.
Aquí se dan algunas buenas respuestas sobre submuestreo y bosque aleatorio ponderado: ¿Cuáles son las implicaciones para entrenar un conjunto de árboles con conjuntos de datos altamente sesgados?
¿Qué métodos de clasificación además de RF pueden manejar el problema de la mejor manera?