A pesar del parecido y otros enfoques de variabilidad de datos cada vez mayores, ¿puede el bosque aleatorio "como un algoritmo" considerarse una buena opción para la clasificación de datos desequilibrados?
A pesar del parecido y otros enfoques de variabilidad de datos cada vez mayores, ¿puede el bosque aleatorio "como un algoritmo" considerarse una buena opción para la clasificación de datos desequilibrados?
Respuestas:
Es no una buena opción.
Los bosques aleatorios se construyen sobre árboles de decisión, y los árboles de decisión son sensibles al desequilibrio de clase . Cada árbol está construido en una bolsa, y cada bolsa es una muestra aleatoria uniforme de los datos (con reemplazo). Por lo tanto, cada árbol estará sesgado en la misma dirección y magnitud (en promedio) por desequilibrio de clase.
Existen varias técnicas para reducir o mitigar el desequilibrio de clases, algunas de las cuales son generales y otras específicas de bosques aleatorios. Ese tema ha sido ampliamente discutido aquí y en otros lugares.
editar: agregaría que no creo que sea dramáticamente peor que cualquier otra opción, por ejemplo, la regresión logística, aunque no tengo evidencia de ello
Las clases desequilibradas son solo un problema si también tiene un desequilibrio de costos de clasificación errónea. Si hay clases minoritarias pequeñas y no es más costoso clasificarlas como una clase mayoritaria que al revés, entonces lo racional es permitir una clasificación errónea de las clases minoritarias.
Así que supongamos que tiene un desequilibrio de clase y costo. Hay múltiples formas de lidiar con esto. El libro de Max Kuhn "Modelización predictiva aplicada" tiene una buena visión general en el capítulo 16. Esos remedios incluyen el uso de un punto de corte distinto de 0.5 que refleja los costos desiguales. Esto es fácil de hacer en la clasificación binaria siempre que su clasificador muestre probabilidades de etiqueta (los árboles y los bosques lo hacen). Todavía no lo he investigado para varias clases. También puede sobremuestrear la clase minoritaria para darle más peso.