Estaba leyendo el capítulo de regresión múltiple de Análisis de datos y gráficos usando R: un enfoque basado en ejemplos y estaba un poco confundido al descubrir que recomienda verificar las relaciones lineales entre variables explicativas (usando un diagrama de dispersión) y, en caso de que no haya n cualquier, transformándolos así que no hacen más linealmente relacionada. Aquí hay algunos extractos de esto:
6.3 Una estrategia para ajustar modelos de regresión múltiple
(...)
Examine la matriz de diagrama de dispersión que involucra todas las variables explicativas. (La inclusión de la variable dependiente es, en este punto, opcional ) . Primero busque evidencia de no linealidad en los gráficos de las variables explicativas entre sí.
(...)
Este punto identifica una estrategia de búsqueda de modelos : busque modelos en los que las relaciones de regresión entre variables explicativas sigan una forma lineal "simple" . Por lo tanto, si algunas parcelas por pares muestran evidencia de no linealidad, considere el uso de transformación (s) para dar relaciones más lineales . Si bien puede no resultar necesariamente posible, siguiendo esta estrategia, modelar adecuadamente la relación de regresión, esta es una buena estrategia, por las razones que se detallan a continuación, para seguir al comenzar la búsqueda.
(...)
Si las relaciones entre las variables explicativas son aproximadamente lineales, quizás después de la transformación, entonces es posible interpretar gráficas de variables predictoras contra la variable de respuesta con confianza.
(...)
Es posible que no sea posible encontrar transformaciones de una o más de las variables explicativas que aseguran que las relaciones (en pares) que se muestran en los paneles parecen lineales. Esto puede crear problemas tanto para la interpretación de las gráficas de diagnóstico para cualquier ecuación de regresión ajustada como para la interpretación de los coeficientes en la ecuación ajustada. Ver Cook y Weisberg (1999).
¿No debería preocuparme las relaciones lineales entre variables dependientes (debido al riesgo de multicolinealidad) en lugar de buscarlas activamente? ¿Cuáles son las ventajas de tener variables relacionadas linealmente aproximadamente?
Los autores abordan el tema de la multicolinealidad más adelante en el capítulo, pero estas recomendaciones parecen estar en desacuerdo con evitar la multicolinealidad.