Aprendí que usando el vif()
método de car
paquete, podemos calcular el grado de multicolinealidad de las entradas en un modelo. En wikipedia , si el vif
valor es mayor que 5
entonces, podemos considerar que la entrada sufre un problema de multicolinealidad. Por ejemplo, he desarrollado un modelo de regresión lineal utilizando el lm()
método y vif()
da lo siguiente. Como podemos ver, las entradas ub
, lb
y tb
están sufriendo de multicolinealidad.
vif(lrmodel)
tb ub lb ma ua mb sa sb
7.929757 50.406318 30.826721 1.178124 1.891218 1.364020 2.113797 2.357946
Para evitar el problema de multicolinealidad y, por lo tanto, hacer que mi modelo sea más robusto, he interactuado entre ub
y lb
, y ahora la tabla vif del nuevo modelo es la siguiente:
tb ub:lb ma mb sa sb ua
1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218
No hay mucha diferencia en los R^2
valores y tampoco hay mucha diferencia en los errores de las pruebas de CV de una sola omisión en los dos casos anteriores.
Mis preguntas son:
¿Está bien evitar el problema de multicolinealidad tomando la interacción como se muestra arriba?
¿Hay alguna manera mejor de presentar un problema de multicolinealidad en comparación con los resultados del método vif anteriores.
Por favor dame tus sugerencias.
Gracias.