Algoritmo de árbol de regresión con modelos de regresión lineal en cada hoja.

14

Versión corta: estoy buscando un paquete R que pueda construir árboles de decisión, mientras que cada hoja en el árbol de decisión es un modelo de regresión lineal completo. AFAIK, la biblioteca rpartcrea árboles de decisión donde la variable dependiente es constante en cada hoja. ¿Hay otra biblioteca (o una rpartconfiguración que no conozca) que pueda construir tales árboles?

Versión larga: estoy buscando un algoritmo que construya un árbol de decisión basado en un conjunto de datos de entrenamiento. Cada decisión en el árbol divide el conjunto de datos de entrenamiento en dos partes, de acuerdo con una condición en una de las variables independientes. La raíz del árbol contiene el conjunto de datos completo, y cada elemento del conjunto de datos está contenido exactamente en un nodo hoja.

El algoritmo es así:

Comience con el conjunto de datos completo, que es el nodo raíz del árbol. Elija este nodo y llámelo $N$ .
Crear un modelo de regresión lineal de los datos de $N$ .
Si $R^2$ del modelo lineal de $N$ es más alto que algún umbral $\theta_{R^2}$ , entonces hemos terminado con $N$ , entonces marque $N$ como una hoja y salte al paso 5.
Pruebe decisiones aleatorias y elija la que produzca el mejor en los subnodos:
- Elija una variable independiente aleatoria $v_i$ , así como un umbral aleatorio $\theta_i$ .
- La decisión divide el conjunto de datos de en dos nuevos y $v_i \leq \theta_i$ $N$ $\hat{N}$ $\tilde{N}$ .
- Crear modelos de regresión lineal en ambos y , y calcular su (llamada de ellos y ). $\hat{N}$ $\tilde{N}$ $R^2$ $\hat{r}$ $\tilde{r}$
- De todos esos tuplas , seleccione el que con la máxima . Esto produce una nueva decisión en el árbol, y tiene dos nuevos subnodos y . $n$ $(v_i, \theta_i, \hat{r}, \tilde{r})$ $min(\hat{r}, \tilde{r})$ $N$ $\hat{N}$ $\tilde{N}$
Tenemos procesamiento acabada . Elija un nuevo nodo que aún no se haya procesado y vuelva al paso 2. Si todos los nodos se han procesado, el algoritmo finaliza. $N$ $N$

Esto construirá recursivamente un árbol de decisión que divide los datos en partes más pequeñas y calcula un modelo lineal en cada una de esas partes.

El paso 3 es la condición de salida, que evita que el algoritmo se sobreajuste. Por supuesto, hay otras posibles condiciones de salida:

Salga si la profundidad de en el árbol está por encima de $N$ $\theta_{depth}$
Salga si el conjunto de datos en es menor que $N$ $\theta_{data set}$

¿Existe tal algoritmo en un paquete R?

r regression rpart cart

— cheesus dice que dejen de disparar mods
fuente

44

Eche un vistazo al paquete de la fiesta y vea si esto se adapta a sus necesidades. Puede manejar varios tipos de modelos en los nodos de árboles IIRC.

— Restablecer Monica - G. Simpson

11

Si bien funcionan de manera diferente a su algoritmo, creo que encontrará interesantes mob () y FTtree. Para la mafia de Zeileis, visite http://cran.r-project.org/web/packages/party/vignettes/MOB.pdf Para FTtree, los árboles funcionales de Gama, una implementación está disponible en Weka y, por lo tanto, en RWeka. Ver http://cran.r-project.org/web/packages/RWeka/index.html para más detalles.

— Momo
fuente

1

+1 para mob, que permite conectar casi cualquier modelo al marco de partición recursivo

— etov

8

El paquete RWeka ofrece muchos métodos de regresión. Entre ellos, puede encontrar M5P (M5 Prime), que es exactamente un modelo de regresión basado en árboles con ecuaciones lineales en las hojas. Para más detalles sobre el método M5, consulte la publicación .

Un código de ejemplo sería:

library(RWeka)
M5_model = M5P (Dep_var ~ ., data = train, control = Weka_control(N=F, M=10))
train_predicted = predict(M5_model, train)
test_predicted = predict(M5_model, test)

Si desea utilizar el conjunto de ensacado con el método M5, intente algo como:

M5_bag = Bagging(Dep_var ~ ., data = train, control = Weka_control(P=100, I = 100, W = list("weka.classifiers.trees.M5P", M = 4)))

Para ver las opciones de control para el modelo M5P, intente:

WOW(M5P)

Si desea optimizar el método M5, hay una solución para eso en el caretpaquete:

library(caret)
Optimization = train (Dep_var ~ .,data = train, method = 'M5')

— JerryTheForester
fuente

7

Creo que esto responde a la versión corta de su pregunta:

El paquete cubista se ajusta a modelos basados en reglas (similares a los árboles) con modelos de regresión lineal en las hojas terminales, correcciones basadas en instancias y refuerzo.

Desde vistas de tareas de Cran: Machine Learning

— Jack Ryan
fuente

¿Sabes si esto es (similar a) el M5 de Quinlan?

— Momo

Sé que esto es similar al M5 de Quinlan en cuanto el Cubista de Quinlan es similar al M5 de Quinlan .

— Jack Ryan