Colinealidad entre variables categóricas.

11

Hay mucho acerca de la colinealidad con respecto a los predictores continuos, pero no tanto que pueda encontrar en los predictores categóricos. Tengo datos de este tipo ilustrados a continuación.

El primer factor es una variable genética (recuento de alelos), el segundo factor es una categoría de enfermedad. Claramente, los genes preceden a la enfermedad y son un factor para mostrar síntomas que conducen a un diagnóstico. Sin embargo, un análisis regular que utiliza sumas de cuadrados de tipo II o III, como se haría comúnmente en psicología con SPSS, pierde el efecto. Un análisis de sumas de cuadrados tipo I lo recoge cuando se ingresa el orden apropiado porque depende del orden. Además, es probable que haya componentes adicionales al proceso de la enfermedad que no están relacionados con el gen que no están bien identificados con el tipo II o III, ver anova (lm1) a continuación vs lm2 o Anova.

Datos de ejemplo:

set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv  <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)

library(car)
chisq.test(table(iv1, iv2))          # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1);    lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1);                    anova(lm2)
Anova(lm1, type="II");         Anova(lm2, type="II")

lm1 con SS tipo I me parece la forma adecuada de analizar los datos dada la teoría de fondo. ¿Es correcta mi suposición?
Estoy acostumbrado a manipular explícitamente diseños ortogonales, donde estos problemas no suelen aparecer. ¿Es difícil convencer a los revisores de que este es el mejor proceso (suponiendo que el punto 1 sea correcto) en el contexto de un campo centrado en SPSS?
¿Y qué informar en la sección de estadísticas? ¿Algún análisis adicional o comentarios que deberían entrar?

— Matt Albrecht
fuente

Es sorprendente escuchar que alguien que usa SPSS solo conoce SS Tipo III o II. Y suenas así.

— ttnphns

2

Bueno, solía tener la misma brecha de conocimiento a la que me refiero en mi pregunta. Parece ser más un reflejo de los intereses de las personas, el conocimiento y cómo se introducen en el software en lugar del software en sí. Pero las opciones predeterminadas también juegan un papel importante con la opción predeterminada de tipo III que se usa en SPSS.

— Matt Albrecht el

Parece que está diciendo que tiene una manera de ingresar 2 predictores en un orden específico usando el procedimiento anova de SPSS (¿unianova?). Solo conozco una forma de especificar el orden cambiando al procedimiento de regresión. ¿Cómo se logra esto?

— rolando2

8

La colinealidad entre factores es bastante complicada. El ejemplo clásico es el que obtiene cuando agrupa y codifica de forma ficticia las tres variables continuas 'edad', 'período' y 'año'. Se analiza en:

Kupper, LL, Janis, JM, Salama, IA, Yoshizawa, CN Greenberg, BG y Winsborough, HH (1983). Análisis de cohorte de edad-período: una ilustración de los problemas que evalúan la interacción en una observación por datos de células , Communicatios in Statistics - Theory and Methods , 12, 23, pp. 201-217.

Los coeficientes que obtiene, después de eliminar cuatro (no tres) referencias, solo se identifican hasta una tendencia lineal desconocida. Esto puede analizarse porque la colinealidad surge de una colinealidad conocida en las variables de origen (edad + año = período).

También se ha trabajado en colinealidad espuria entre dos factores. Se ha analizado en:

Eccleston, JA y Hedayat, A. (1974). Sobre la teoría de los diseños conectados: Caracterización y optimización , The Annals of Statistics , 2, 6, pp. 1238-1255.

El resultado es que la colinealidad entre las variables categóricas significa que el conjunto de datos debe dividirse en partes desconectadas, con un nivel de referencia en cada componente. Los coeficientes estimados de diferentes componentes no se pueden comparar directamente.

Para colinealidades más complicadas entre tres o más factores, la situación es complicada. Existen procedimientos para encontrar funciones estimables, es decir, combinaciones lineales de los coeficientes que son interpretables, por ejemplo, en:

"Sobre la conectividad de los diseños de fila y columna" por Godolphin y Godolphin en Utilitas Mathematica (60) pp 51-65

Pero, que yo sepa, no existe una bala de plata general para manejar tales colinealidades de una manera intuitiva.

— Simen Gaure
fuente

1

Después de conversar con algunas de las estadísticas de personas de todo el lugar. Parece que este tipo de pregunta puede no ser la pregunta más correcta para responder. Usar ANOVA (o métodos similares) para investigar las interacciones genéticas y de diagnóstico sobre medidas neuropsicológicas cuando están altamente correlacionadas es una pregunta difícil. En cambio, he señalado que examine la estructura de los datos con el modelado de ecuaciones estructurales.

Esta respuesta se actualizará a medida que obtenga más información sobre SEM.

— Matt Albrecht
fuente