Parece incluir el término de interacción ub:lb, pero no uby lbellos mismos como predictores separados. Esto violaría el llamado "principio de marginalidad" que establece que los términos de orden superior solo deben incluir variables presentes en términos de orden inferior ( Wikipedia para empezar ). Efectivamente, ahora está incluyendo un predictor que es solo el producto basado en elementos de uby lb.
VyoFj es solo donde es el valor cuando ejecuta una regresión con su variable predictor original como criterio predicho por todos los predictores restantes (que también es la elemento diagonal -ésimo de , el inverso de la matriz de correlación de los predictores). Un VIF-valor de 50 indica que por lo tanto se obtiene un de 0,98 cuando se predice con los otros predictores, lo que indica que es casi completamente redundante (para la misma , de 0,97).11 - R2jR2jR2jjR- 1XR2ubublbR2
Comenzaría a hacer todas las correlaciones por pares entre los predictores, y ejecutaría las regresiones antes mencionadas para ver qué variables predicen uby lbpara ver si la redundancia se explica fácilmente. Si es así, puede eliminar los predictores redundantes. También puede examinar la regresión de crestas ( lm.ridge()del paquete MASSen R).
Los diagnósticos de multicolinealidad más avanzados utilizan la estructura de valor propio de donde es la matriz de diseño de la regresión (es decir, todos los predictores como vectores de columna). La condición es donde y son los más grandes y los más pequeños ( ) valores propios de . En R, puede usar , donde el modelo generalmente usa las variables estandarizadas.XtXXκλm a x√λm i n√λm a xλm i n≠ 0XtXkappa(lm(<formula>))lm()
Geométricamente, le da una idea sobre la forma de la nube de datos formada por los predictores. Con 2 predictores, el diagrama de dispersión podría verse como una elipse con 2 ejes principales. luego le dice cuán "plana" es esa elipse, es decir, es una medida de la relación entre la longitud del eje más grande y la longitud del eje principal más pequeño. Con 3 predictores, puede tener forma de cigarro y 3 ejes principales. Cuanto más "plana" esté su nube de datos en alguna dirección, más redundantes serán las variables cuando se tomen juntas.κκ
Hay algunas reglas generales para los valores no críticos de (escuché menos de 20). Pero tenga en cuenta que no es invariable en las transformaciones de datos que solo cambian la unidad de las variables, como la estandarización. Esto es a diferencia de VIF: le dará el mismo resultado que (siempre y cuando no hay términos multiplicativos en el modelo), pero , y es casi seguro que difieren.κκvif(lm(y ~ x1 + x2))vif(lm(scale(y) ~ scale(x1) + scale(x2)))kappa(lm(y ~ x1 + x2))kappa(lm(scale(y) ~ scale(x1) + scale(x2)))