Hay mucho acerca de la colinealidad con respecto a los predictores continuos, pero no tanto que pueda encontrar en los predictores categóricos. Tengo datos de este tipo ilustrados a continuación.
El primer factor es una variable genética (recuento de alelos), el segundo factor es una categoría de enfermedad. Claramente, los genes preceden a la enfermedad y son un factor para mostrar síntomas que conducen a un diagnóstico. Sin embargo, un análisis regular que utiliza sumas de cuadrados de tipo II o III, como se haría comúnmente en psicología con SPSS, pierde el efecto. Un análisis de sumas de cuadrados tipo I lo recoge cuando se ingresa el orden apropiado porque depende del orden. Además, es probable que haya componentes adicionales al proceso de la enfermedad que no están relacionados con el gen que no están bien identificados con el tipo II o III, ver anova (lm1) a continuación vs lm2 o Anova.
Datos de ejemplo:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- lm1 con SS tipo I me parece la forma adecuada de analizar los datos dada la teoría de fondo. ¿Es correcta mi suposición?
- Estoy acostumbrado a manipular explícitamente diseños ortogonales, donde estos problemas no suelen aparecer. ¿Es difícil convencer a los revisores de que este es el mejor proceso (suponiendo que el punto 1 sea correcto) en el contexto de un campo centrado en SPSS?
- ¿Y qué informar en la sección de estadísticas? ¿Algún análisis adicional o comentarios que deberían entrar?