En una regresión lineal múltiple con regresores altamente correlacionados, ¿cuál es la mejor estrategia para usar? ¿Es un enfoque legítimo agregar el producto de todos los regresores correlacionados?
En una regresión lineal múltiple con regresores altamente correlacionados, ¿cuál es la mejor estrategia para usar? ¿Es un enfoque legítimo agregar el producto de todos los regresores correlacionados?
Respuestas:
Los componentes principales tienen mucho sentido ... matemáticamente. Sin embargo, desconfiaría de simplemente usar algún truco matemático en este caso y esperar no tener que pensar en mi problema.
Recomiendo pensar un poco sobre qué tipo de predictores tengo, cuál es la variable independiente, por qué mis predictores están correlacionados, si algunos de mis predictores realmente están midiendo la misma realidad subyacente (si es así, si puedo trabajar con un medición individual y cuál de mis predictores sería el mejor para esto), para qué estoy haciendo el análisis: si no estoy interesado en la inferencia, solo en la predicción, podría dejar las cosas tal como están, en el futuro Los valores predictores son similares a los anteriores.
Puede utilizar los componentes principales o la regresión de cresta para tratar este problema. Por otro lado, si tiene dos variables que están lo suficientemente correlacionadas como para causar problemas con la estimación de parámetros, entonces casi con certeza podría descartar cualquiera de las dos sin perder mucho en términos de predicción, porque las dos variables llevan la misma información . Por supuesto, eso solo funciona cuando el problema se debe a dos independientes altamente correlacionados. Cuando el problema involucra más de dos variables que son juntas casi colineales (cualquiera de las cuales puede tener solo correlaciones moderadas), probablemente necesitará uno de los otros métodos.
Aquí hay otro pensamiento inspirado en la respuesta de Stephan :
Si algunos de sus regresores correlacionados están significativamente relacionados (por ejemplo, son diferentes medidas de inteligencia, es decir, verbal, matemática, etc.), puede crear una sola variable que mida la misma variable utilizando una de las siguientes técnicas:
Suma los regresores (apropiado si los regresores son componentes de un todo, por ejemplo, IQ verbal + IQ matemático = IQ general)
Promedio de los regresores (apropiado si los regresores miden la misma construcción subyacente, por ejemplo, tamaño del zapato izquierdo, tamaño del zapato derecho para medir la longitud de los pies)
Análisis factorial (para tener en cuenta los errores en las mediciones y extraer un factor latente)
Luego puede descartar todos los regresores correlacionados y reemplazarlos con la única variable que emerge del análisis anterior.
Estaba a punto de decir lo mismo que Stephan Kolassa arriba (así que he votado su respuesta). Solo agregaría que a veces la multicolinealidad puede deberse al uso de variables extensivas que están altamente correlacionadas con alguna medida de tamaño, y las cosas pueden mejorarse usando variables intensivas, es decir, dividiendo todo entre alguna medida de tamaño. Por ejemplo, si sus unidades son países, puede dividir por población, área o PNB, según el contexto.
Ah, y para responder a la segunda parte de la pregunta original: no se me ocurre ninguna situación en la que agregar el producto de todos los regresores correlacionados sería una buena idea. ¿Cómo ayudaría? ¿Qué significaría?
No soy un experto en esto, pero mi primer pensamiento sería ejecutar un análisis de componentes principales en las variables predictoras, luego usar los componentes principales resultantes para predecir su variable dependiente.
Esto no es un remedio, pero definitivamente es un paso en la dirección correcta.