¿Es el bosque aleatorio para la regresión una regresión 'verdadera'?


18

Los bosques al azar se utilizan para la regresión. Sin embargo, por lo que entiendo, asignan un valor objetivo promedio en cada hoja. Dado que solo hay hojas limitadas en cada árbol, solo hay valores específicos que el objetivo puede alcanzar de nuestro modelo de regresión. Entonces, ¿no es solo una regresión 'discreta' (como una función escalonada) y no es como una regresión lineal que es 'continua'?

¿Estoy entendiendo esto correctamente? En caso afirmativo, ¿qué ventaja ofrece el bosque aleatorio en la regresión?


Respuestas:


23

Esto es correcto: los bosques aleatorios discretizan las variables continuas ya que se basan en árboles de decisión, que funcionan a través de particiones binarias recursivas. Pero con suficientes datos y suficientes divisiones, una función de paso con muchos pasos pequeños puede aproximarse a una función fluida. Entonces esto no tiene por qué ser un problema. Si realmente desea capturar una respuesta uniforme de un solo predictor, calcule el efecto parcial de cualquier variable particular y ajuste una función uniforme (esto no afecta el modelo en sí, que conservará este carácter gradual).

Los bosques aleatorios ofrecen bastantes ventajas sobre las técnicas de regresión estándar para algunas aplicaciones. Por mencionar solo tres:

  1. Permiten el uso arbitrario de muchos predictores (es posible tener más predictores que puntos de datos)
  2. Pueden aproximar formas complejas no lineales sin una especificación a priori
  3. Pueden capturar interacciones complejas entre predicciones sin una especificación a priori .

En cuanto a si es una regresión "verdadera", esto es algo semántico. Después de todo, la regresión por partes también es regresión, pero tampoco es uniforme. Como es cualquier regresión con un predictor categórico, como se señala en los comentarios a continuación.


77
Además, la regresión con solo características categóricas tampoco sería fluida.
Tim

3
¿Podría una regresión con incluso una característica categórica ser suave?
Dave

4

Es discreto, pero cualquier salida en forma de número de coma flotante con un número fijo de bits será discreta. Si un árbol tiene 100 hojas, puede dar 100 números diferentes. Si tiene 100 árboles diferentes con 100 hojas cada uno, entonces su bosque aleatorio teóricamente puede tener 100 ^ 100 valores diferentes, lo que puede dar 200 dígitos (decimales) de precisión, o ~ 600 bits. Por supuesto, habrá una superposición, por lo que en realidad no verá 100 ^ 100 valores diferentes. La distribución tiende a ser más discreta cuanto más llegas a los extremos; cada árbol tendrá una hoja mínima (una hoja que da un resultado menor o igual que todas las demás hojas), y una vez que obtiene la hoja mínima de cada árbol, no puede bajar más. Entonces habrá un valor general mínimo para el bosque, y a medida que se desvía de ese valor, comenzará con todos menos algunos árboles en su hoja mínima, haciendo pequeñas desviaciones del aumento del valor mínimo en saltos discretos. Pero la disminución de la confiabilidad en los extremos es una propiedad de las regresiones en general, no solo de los bosques aleatorios.


Las hojas pueden almacenar cualquier valor de los datos de entrenamiento (por lo tanto, con los datos de entrenamiento correctos, 100 árboles de 100 hojas pueden almacenar hasta 10,000 valores distintos). Pero el valor devuelto es la media de la hoja elegida de cada árbol. Entonces, el número de bits de precisión de ese valor es el mismo si tiene 2 árboles o 100 árboles.
Darren Cook

3

La respuesta dependerá de cuál sea su definición de regresión, consulte Definición y delimitación del modelo de regresión . Pero una definición habitual (o parte de una definición) es que la regresión modela la expectativa condicional . Y un árbol de regresión puede ser visto como un estimador de expectativa condicional.

En los nodos de las hojas, predice el promedio de las observaciones de la muestra que llegan a esa hoja, y una media aritmética es un estimador de una expectativa. El patrón de ramificación en el árbol representa el condicionamiento.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.