Hasta ahora, he eliminado las variables colineales como parte del proceso de preparación de datos al observar las tablas de correlación y eliminar las variables que están por encima de un cierto umbral. ¿Hay una forma más aceptada de hacer esto? Además, soy consciente de que solo mirar la correlación entre 2 variables a la vez no es lo ideal, las mediciones como VIF tienen en cuenta la correlación potencial entre varias variables. ¿Cómo se elegiría sistemáticamente combinaciones de variables que no exhiban multicolinealidad?
Tengo mis datos dentro de un marco de datos de pandas y estoy usando los modelos de sklearn.