No sé exactamente lo que hiciste, por lo que tu código fuente me ayudaría a adivinar menos.
Muchos bosques aleatorios son esencialmente ventanas dentro de las cuales se supone que el promedio representa el sistema. Es un árbol CAR excesivamente glorificado.
Digamos que tienes un árbol CAR de dos hojas. Sus datos se dividirán en dos pilas. La salida (constante) de cada pila será su promedio.
Ahora hagámoslo 1000 veces con subconjuntos aleatorios de datos. Aún tendrá regiones discontinuas con salidas que son promedios. El ganador en un RF es el resultado más frecuente. Eso solo "difunde" la frontera entre categorías.
Ejemplo de salida lineal por partes del árbol CART:
Digamos, por ejemplo, que nuestra función es y = 0.5 * x + 2. Una trama de eso se parece a la siguiente:
Si tuviéramos que modelar esto usando un solo árbol de clasificación con solo dos hojas, primero encontraríamos el punto de mejor división, división en ese punto, y luego aproximaríamos la salida de la función en cada hoja como la producción promedio sobre la hoja.
Si tuviéramos que hacer esto nuevamente con más hojas en el árbol CART, entonces podríamos obtener lo siguiente:
¿Por qué los bosques CAR?
Puede ver que, en el límite de hojas infinitas, el árbol CART sería un aproximador aceptable.
El problema es que el mundo real es ruidoso. Nos gusta pensar en medios, pero al mundo le gustan tanto la tendencia central (media) como la tendencia a la variación (std dev). Hay ruido.
Lo mismo que le da a un árbol CAR su gran fuerza, su capacidad para manejar la discontinuidad, lo hace vulnerable al ruido de modelado como si fuera una señal.
Entonces, Leo Breimann hizo una propuesta simple pero poderosa: usar métodos Ensemble para hacer robustos los árboles de Clasificación y Regresión. Toma subconjuntos aleatorios (un primo de remuestreo de bootstrap) y los usa para entrenar un bosque de árboles CAR. Cuando haces una pregunta sobre el bosque, todo el bosque habla y la respuesta más común se toma como resultado. Si se trata de datos numéricos, puede ser útil considerar la expectativa como la salida.
Entonces, para el segundo diagrama, piense en modelar usando un bosque aleatorio. Cada árbol tendrá un subconjunto aleatorio de los datos. Eso significa que la ubicación del "mejor" punto de división variará de un árbol a otro. Si tuviera que hacer un diagrama de la salida del bosque aleatorio, a medida que se acerca a la discontinuidad, las primeras ramas indicarán un salto, luego muchas. El valor medio en esa región atravesará un camino sigmoide suave. Bootstrapping es complicado con un gaussiano, y el desenfoque gaussiano en esa función de paso se convierte en un sigmoide.
Líneas inferiores:
Necesita muchas ramas por árbol para obtener una buena aproximación a una función muy lineal.
Hay muchos "diales" que podría cambiar para impactar la respuesta, y es poco probable que los haya configurado a los valores adecuados.
Referencias