La importancia de la característica a través del bosque aleatorio y la regresión lineal son diferentes

Aplicamos Lasso para clasificar las características y obtuve los siguientes resultados:

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

Tenga en cuenta que el conjunto de datos tiene 3 etiquetas. La clasificación de las características para las diferentes etiquetas es la misma.

Luego aplicó bosque aleatorio al mismo conjunto de datos:

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

Tenga en cuenta que la clasificación es muy diferente de la producida por Lasso.

¿Cómo interpretar la diferencia? ¿Implica que el modelo subyacente es inherentemente no lineal?

feature-selection random-forest linear-regression

— neurita
fuente

El rango de una característica realmente no se traduce entre diferentes clasificadores. Para probar si el modelo no es lineal, consulte aquí, por ejemplo: stats.stackexchange.com/questions/35893/…

— Alex R.

Las características importantes son solo una sugerencia basada en "heurística". Pueden ser poco confiables a veces. Por lo general, confiaría más en el bosque aleatorio que en Lasso.

— Gerenuk

Entonces, su consulta es una comparación de la regresión lineal versus la importancia de las variables derivada del modelo de bosque aleatorio.

$R^2$

Otro enfoque popular es promediar los pedidos (LMG, 1980). El LMG funciona así:

$SS_a/SS_{total}$ $R^2$ $a$
$a,b,c$ $b,a,c$ $b,c,a$
Encuentre el promedio de las correlaciones semi-parciales para cada uno de estos pedidos. Este es el promedio sobre pedidos.

El algoritmo de bosque aleatorio se ajusta a múltiples árboles, cada árbol en el bosque se construye seleccionando aleatoriamente diferentes características del conjunto de datos. Los nodos de cada árbol se construyen eligiendo y dividiendo para lograr la máxima reducción de varianza. Mientras se predice en el conjunto de datos de prueba, la salida de los árboles individuales se promedia para obtener la salida final. Cada variable se permuta entre todos los árboles y se calcula la diferencia en el error fuera de la muestra de antes y después de la permutación. Las variables con mayor diferencia se consideran más importantes, y las que tienen valores más bajos son menos importantes.

El método por el cual el modelo se ajusta a los datos de entrenamiento es muy diferente para un modelo de regresión lineal en comparación con el modelo de bosque aleatorio. Pero ambos modelos no contienen ninguna relación estructural entre las variables.

Con respecto a su consulta sobre la no linealidad de la variable dependiente: El lazo es esencialmente un modelo lineal que no podrá dar buenas predicciones para procesos subyacentes no lineales, en comparación con los modelos basados en árboles. Debería poder verificar esto verificando el rendimiento de los modelos sobre un conjunto de pruebas de reserva, si el bosque aleatorio funciona mejor, el proceso subyacente puede ser no lineal. Alternativamente, podría incluir efectos de interacción variable y variables de orden superior creadas usando a, byc en el modelo de lazo y verificar si este modelo funciona mejor en comparación con un lazo con solo una combinación lineal de a, byc. Si lo hace, entonces el proceso subyacente podría ser no lineal.

Referencias

— Sandeep S. Sandhu
fuente