¿Se puede aplicar la metodología de bosque aleatorio a las regresiones lineales?


14

Los bosques aleatorios funcionan creando un conjunto de árboles de decisión donde cada árbol se crea utilizando una muestra de arranque de los datos de entrenamiento originales (muestra de variables de entrada y observaciones).

¿Se puede aplicar un proceso similar para la regresión lineal? Cree k modelos de regresión lineal utilizando una muestra aleatoria de bootstrap para cada una de las k regresiones

¿Cuáles son las razones para NO crear una "regresión aleatoria" como modelo?

Gracias. Si hay algo que estoy malentendiendo fundamentalmente, hágamelo saber.


Cuando bootstrap agrega árboles, la función de regresión general se vuelve más y más compleja con cada árbol que se agrega. Por otro lado, cuando bootstrap agrega funciones lineales de la forma a_0 + a_1 * x_1 + ... + a_d * x_d, la función lineal promedio resultante (después de la agregación de bootstrap) todavía tiene la misma forma funcional lineal con la que comienza (es decir, el "alumno base").
Andre Holzner

1
@Andre Holzner: lo que dices es cierto, pero, pero, pero ... hacer este forrest aleatorio es en realidad una forma de regularización, en una clase similar a la formación de crestas. Te diré un secreto, un árbol de regresión es en realidad un modelo lineal, una clase similar a las splines. poniéndome el sombrero bayesiano, el regularizador de forrest aleatorio probablemente correspondería aproximadamente a los anteriores "spike and slab" utilizados en el contexto bayesiano.
probabilityislogic

@probabilityislogic, ¿puedes explicarlo?
Simon Kuang

Puedes pensar en los árboles como el modelo lineal . Z t es una matriz de diseño que indica a qué nodo terminal pertenece cada observación para el árbol t , y θ t es el vector correspondiente de predicciones de nodo terminal. Cualquier árbol puede describirse de esta manera: elegir un árbol es equivalente a la selección del modelo lineal estándar en el espacio de Z t , de los cuales creo que hay 2 n posibles configuraciones de "nodo terminal" (donde n es el tamaño de la muestra de entrenamiento). y=Ztθt+eZttθtZt2nn
probabilidadislogica

Respuestas:


5

Estoy parcialmente en desacuerdo con las respuestas actuales porque la metodología de bosque aleatorio se basa en la introducción de la varianza (CARTs construidas en muestras bootstrapped + método de subespacio aleatorio) para hacerlas independientes. Una vez que tiene árboles ortogonales, el promedio de sus predicciones tiende (en muchos casos) a ser mejor que la predicción del árbol promedio (debido a la desigualdad de Jensen). Aunque los CART tienen ventajas notables cuando están sujetos a este tratamiento, esta metodología definitivamente se aplica a cualquier modelo y los modelos lineales no son una excepción. Aquí hay un paquete R que es exactamente lo que está buscando. Presenta un buen tutorial sobre cómo ajustarlos e interpretarlos y bibliografía sobre el tema: Modelos lineales generalizados aleatorios .


14

Para poner la respuesta de @ziggystar en términos de jerga de aprendizaje automático: la idea detrás de las técnicas de agregación bootstrap (por ejemplo, bosques aleatorios) es ajustar muchos modelos de baja polarización y alta varianza a los datos con algún elemento de "aleatoriedad" o "inestabilidad". En el caso de los bosques aleatorios, la inestabilidad se agrega a través de bootstrapping y al elegir un conjunto aleatorio de características para dividir cada nodo del árbol. Al promediar estos árboles ruidosos, pero de bajo sesgo, se alivia la gran variación de cualquier árbol individual.

Mientras que los árboles de regresión / clasificación son modelos de "bajo sesgo y alta varianza", los modelos de regresión lineal son típicamente lo opuesto: "alto sesgo y baja varianza". Por lo tanto, el problema que a menudo se enfrenta con los modelos lineales es reducir el sesgo, no reducir la varianza. La agregación Bootstrap simplemente no está hecha para hacer esto.

Un problema adicional es que el arranque puede no proporcionar suficiente "aleatoriedad" o "inestabilidad" en un modelo lineal típico. Esperaría que un árbol de regresión sea más sensible a la aleatoriedad de las muestras de bootstrap, ya que cada hoja generalmente solo contiene un puñado de puntos de datos. Además, los árboles de regresión se pueden cultivar estocásticamente dividiendo el árbol en un subconjunto aleatorio de variables en cada nodo. Vea esta pregunta anterior para saber por qué esto es importante: ¿Por qué los bosques aleatorios se dividen en función de m características aleatorias?

Dicho todo esto, ciertamente puede usar bootstrapping en modelos lineales [LINK] , y esto puede ser muy útil en ciertos contextos. Sin embargo, la motivación es muy diferente de las técnicas de agregación bootstrap.


Gracias por los enlaces y la respuesta. Si el método de aleatoriedad es útil para los modelos de "sesgo bajo, varianza alta", ¿hay alguna metodología para tratar con el tipo opuesto de modelos de "sesgo alto, varianza baja"?
Rick

Si tiene un modelo de sesgo bajo y alta varianza, las metodologías como el embolsado pueden reducir la varianza con un ligero aumento en el sesgo. Si tiene un sesgo alto, una varianza baja, use un modelo que tenga un sesgo más bajo y una varianza más alta, como una regresión polinómica o métodos de kernel más generales.
Joe

10

kk

Y aquí es por qué no es tan atractivo hacer algo "aleatorio" con modelos lineales como lo es con árboles de decisión:

Es muy probable que un árbol de decisión grande creado a partir de una muestra grande sobreajuste los datos, y el método forestal aleatorio combate este efecto al confiar en el voto de muchos árboles pequeños.

La regresión lineal, por otro lado, es un modelo que no es muy propenso al sobreajuste y, por lo tanto, no se ve perjudicado al entrenarlo en la muestra completa al principio. E incluso si tiene muchas variables regresivas, puede aplicar otras técnicas, como la regularización, para combatir el sobreajuste.


0

k converge al infinito, la estimación en bolsas del modelo lineal converge en la estimación OLS (mínimos cuadrados ordinarios) de la ejecución del modelo lineal en toda la muestra. La forma de probar esto es ver que bootstrap "finge" que la distribución de la población es la misma que la distribución empírica. A medida que muestres más y más conjuntos de datos de esta distribución empírica, el promedio de hiperplanos estimados convergerá al "hiperplano verdadero" (que es la estimación de OLS ejecutada en los datos completos) por las propiedades asintóticas de los mínimos cuadrados ordinarios.

X1,X2,...,XnBe(p)
p1p
θ=1{p>0}
Xi=1θ=1θθ
siyouns siunsolsolyonortesol=PAGrosi(yonorte un siootstrunpag sunmetropaglmi X(1)=...=X(norte)=0 0)>0 0,
condicional en θ=1.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.