Cuando se construye un modelo CART (específicamente un árbol de clasificación) usando rpart (en R), a menudo es interesante saber cuál es la importancia de las diversas variables introducidas en el modelo.
Por lo tanto, mi pregunta es: ¿Qué medidas comunes existen para clasificar / medir la importancia variable de las variables participantes en un modelo CART? ¿Y cómo se puede calcular esto usando R (por ejemplo, cuando se usa el paquete rpart)
Por ejemplo, aquí hay un código ficticio, creado para que pueda mostrar sus soluciones en él. Este ejemplo está estructurado para que quede claro que las variables x1 y x2 son "importantes", mientras que (en cierto sentido) x1 es más importante que x2 (ya que x1 debería aplicarse a más casos, por lo tanto, influye más en la estructura de los datos, entonces x2).
set.seed(31431)
n <- 400
x1 <- rnorm(n)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
x5 <- rnorm(n)
X <- data.frame(x1,x2,x3,x4,x5)
y <- sample(letters[1:4], n, T)
y <- ifelse(X[,2] < -1 , "b", y)
y <- ifelse(X[,1] < 0 , "a", y)
require(rpart)
fit <- rpart(y~., X)
plot(fit); text(fit)
info.gain.rpart(fit) # your function - telling us on each variable how important it is
(las referencias son siempre bienvenidas)