Este es un problema interesante y muy frecuente en la clasificación, no solo en los árboles de decisión sino en prácticamente todos los algoritmos de clasificación.
Como descubrió empíricamente, un conjunto de entrenamiento que consta de diferentes números de representantes de cualquier clase puede dar como resultado un clasificador sesgado hacia la clase mayoritaria. Cuando se aplica a un conjunto de prueba que está igualmente desequilibrado, este clasificador produce una estimación de precisión optimista. En un caso extremo, el clasificador podría asignar cada caso de prueba a la clase mayoritaria, logrando así una precisión igual a la proporción de casos de prueba pertenecientes a la clase mayoritaria. Este es un fenómeno bien conocido en la clasificación binaria (y se extiende naturalmente a configuraciones de varias clases).
Este es un tema importante, porque un conjunto de datos desequilibrado puede conducir a estimaciones de rendimiento infladas. Esto a su vez puede llevar a conclusiones falsas sobre la importancia con la que el algoritmo ha funcionado mejor que el azar.
La literatura de aprendizaje automático sobre este tema ha desarrollado esencialmente tres estrategias de solución.
Puede restablecer el equilibrio en el conjunto de entrenamiento submuestreando la clase grande o sobremuestreando la clase pequeña, para evitar que surjan sesgos en primer lugar.
Alternativamente, puede modificar los costos de clasificación errónea, como se señaló en una respuesta anterior, nuevamente para evitar sesgos.
Una salvaguarda adicional es reemplazar la precisión por la llamada precisión equilibrada . Se define como la media aritmética de las precisiones específicas de la clase, donde y representa la precisión obtenida en ejemplos positivos y negativos, respectivamente. Si el clasificador se desempeña igualmente bien en cualquiera de las clases, este término se reduce a la precisión convencional (es decir, el número de predicciones correctas dividido por el número total de predicciones). Por el contrario, si la precisión convencional está por encima del azar solo porque el clasificador aprovecha un conjunto de prueba desequilibrado, entonces la precisión equilibrada, según corresponda, caerá al azar (vea el esquema a continuación).π+π-ϕ:=12(π++π−),π+π−
Recomendaría considerar al menos dos de los enfoques anteriores en conjunto. Por ejemplo, podría sobremuestrear su clase minoritaria para evitar que su clasificador adquiera un sesgo a favor de la clase mayoritaria. Después de esto, al evaluar el rendimiento de su clasificador, puede reemplazar la precisión por la precisión equilibrada. Los dos enfoques son complementarios. Cuando se aplican juntos, deberían ayudarlo a prevenir su problema original y evitar conclusiones falsas derivadas de él.
Me gustaría publicar algunas referencias adicionales a la literatura si desea hacer un seguimiento de esto.