Encontré una referencia en un artículo que dice así:
Según Tabachnick y Fidell (1996), las variables independientes con una correlación bivariada de más de .70 no deberían incluirse en el análisis de regresión múltiple.
Problema: utilicé en un diseño de regresión múltiple 3 variables correlacionadas> .80, VIF en aproximadamente .2 - .3, Tolerancia ~ 4-5. No puedo excluir ninguna de ellas (predictores y resultados importantes). Cuando retrocedí el resultado en los 2 predictores que se correlacionaron a 0,80, ambos permanecieron significativos, cada uno pronosticaba variaciones importantes, y estas mismas dos variables tienen los coeficientes de correlación semipartial y parcial más grandes entre las 10 variables incluidas (5 controles).
Pregunta: ¿Es válido mi modelo a pesar de las altas correlaciones? Cualquier referencia muy bienvenida!
¡Gracias por las respuestas!
No utilicé Tabachnick y Fidell como guía, encontré esta referencia en un artículo que trata sobre una alta colinealidad entre los predictores.
Entonces, básicamente, tengo muy pocos casos para el número de predictores en el modelo (muchas variables de control categóricas, codificadas simuladas: edad, tenencia, género, etc.): 13 variables para 72 casos. El índice de condición es ~ 29 con todos los controles y ~ 23 sin ellos (5 variables).
No puedo descartar ninguna variable ni utilizar el análisis factorial para combinarlas porque, en teoría, tienen sentido por sí mismas. Es demasiado tarde para obtener más datos. Dado que estoy realizando el análisis en SPSS, tal vez sería mejor encontrar una sintaxis para la regresión de crestas (aunque no lo he hecho antes e interpretar los resultados sería algo nuevo para mí).
Si importa, cuando realicé la regresión gradual, las mismas 2 variables altamente correlacionadas seguían siendo los predictores significativos únicos del resultado.
Y todavía no entiendo si las correlaciones parciales que son altas para cada una de estas variables importan como una explicación de por qué las he mantenido en el modelo (en caso de que no se pueda realizar la regresión de cresta).
¿Diría que el "Diagnóstico de regresión: identificación de datos influyentes y fuentes de colinealidad / David A. Belsley, Edwin Kuh y Roy E. Welsch, 1980" sería útil para comprender la multicolinealidad? ¿O podrían ser útiles otras referencias?