Estoy explorando diferentes métodos de clasificación para un proyecto en el que estoy trabajando y estoy interesado en probar Random Forests. Estoy tratando de educarme a medida que avanzo, y agradecería cualquier ayuda brindada por la comunidad de CV.
He dividido mis datos en conjuntos de entrenamiento / prueba. De la experimentación con bosques aleatorios en R (usando el paquete randomForest), he tenido problemas con una alta tasa de clasificación errónea para mi clase más pequeña. He leído este documento sobre el rendimiento de los bosques aleatorios en datos desequilibrados, y los autores presentaron dos métodos para tratar el desequilibrio de clases cuando se utilizan bosques aleatorios.
1. Bosques aleatorios ponderados
2. Bosques aleatorios equilibrados
El paquete R no permite la ponderación de las clases (en los foros de ayuda de R, he leído que el parámetro classwt no funciona correctamente y está programado como una futura corrección de errores), por lo que me queda la opción 2. Puedo especificar El número de objetos muestreados de cada clase para cada iteración del bosque aleatorio.
Me siento incómodo al establecer tamaños de muestra iguales para bosques aleatorios, ya que siento que estaría perdiendo demasiada información sobre la clase más grande que conduce a un bajo rendimiento con datos futuros. Las tasas de clasificación errónea cuando se redujo el muestreo de la clase más grande ha mejorado, pero me preguntaba si había otras formas de lidiar con tamaños de clase desequilibrados en bosques aleatorios.