Tengo un conjunto de datos con 9 variables independientes continuas. Estoy tratando de seleccionar entre estas variables para ajustar un modelo a una sola variable de porcentaje (dependiente) Score
. Desafortunadamente, sé que habrá una colinealidad seria entre varias de las variables.
Intenté usar la stepAIC()
función en R para la selección de variables, pero ese método, curiosamente, parece sensible al orden en que las variables se enumeran en la ecuación ...
Aquí está mi código R (porque es un porcentaje de datos, uso una transformación logit para Score):
library(MASS)
library(car)
data.tst = read.table("data.txt",header=T)
data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 +
Var8 + Var9, data = data.tst)
step = stepAIC(data.lm, direction="both")
summary(step)
Por alguna razón, descubrí que las variables enumeradas al comienzo de la ecuación terminan siendo seleccionadas por la stepAIC()
función, y el resultado puede manipularse enumerando, por ejemplo, Var9
primero (siguiendo la tilde).
¿Cuál es una forma más efectiva (y menos controvertida) de ajustar un modelo aquí? En realidad, no estoy decidido a usar la regresión lineal: lo único que quiero es poder entender cuál de las 9 variables realmente está impulsando la variación en la Score
variable. Preferiblemente, este sería un método que tenga en cuenta el gran potencial de colinealidad en estas 9 variables.
Score
variable", que es la oración en la que me he centrado demasiado. En presencia de una fuerte colinealidad, el lazo no va a ayudar con eso, al menos en interpretaciones más estrictas de la observación del OP.