Entonces, su consulta es una comparación de la regresión lineal versus la importancia de las variables derivada del modelo de bosque aleatorio.
R2
Otro enfoque popular es promediar los pedidos (LMG, 1980). El LMG funciona así:
- SSuna/ SSt o t a lR2una
- a , b , cb , a , cb , c , a
- Encuentre el promedio de las correlaciones semi-parciales para cada uno de estos pedidos. Este es el promedio sobre pedidos.
El algoritmo de bosque aleatorio se ajusta a múltiples árboles, cada árbol en el bosque se construye seleccionando aleatoriamente diferentes características del conjunto de datos. Los nodos de cada árbol se construyen eligiendo y dividiendo para lograr la máxima reducción de varianza. Mientras se predice en el conjunto de datos de prueba, la salida de los árboles individuales se promedia para obtener la salida final. Cada variable se permuta entre todos los árboles y se calcula la diferencia en el error fuera de la muestra de antes y después de la permutación. Las variables con mayor diferencia se consideran más importantes, y las que tienen valores más bajos son menos importantes.
El método por el cual el modelo se ajusta a los datos de entrenamiento es muy diferente para un modelo de regresión lineal en comparación con el modelo de bosque aleatorio. Pero ambos modelos no contienen ninguna relación estructural entre las variables.
Con respecto a su consulta sobre la no linealidad de la variable dependiente: El lazo es esencialmente un modelo lineal que no podrá dar buenas predicciones para procesos subyacentes no lineales, en comparación con los modelos basados en árboles. Debería poder verificar esto verificando el rendimiento de los modelos sobre un conjunto de pruebas de reserva, si el bosque aleatorio funciona mejor, el proceso subyacente puede ser no lineal. Alternativamente, podría incluir efectos de interacción variable y variables de orden superior creadas usando a, byc en el modelo de lazo y verificar si este modelo funciona mejor en comparación con un lazo con solo una combinación lineal de a, byc. Si lo hace, entonces el proceso subyacente podría ser no lineal.
Referencias