Esta pregunta evidentemente proviene de un estudio con un diseño bidireccional desequilibrado, analizado en R con la aov()
función; Esta página proporciona un ejemplo más reciente y detallado de este problema.
La respuesta general a esta pregunta, en cuanto a tantas, es: "Depende". Aquí depende de si el diseño es equilibrado y, si no, qué sabor de ANOVA se elige.
Primero, depende de si el diseño es equilibrado. En el mejor de los mundos posibles, con un número igual de casos en todas las celdas de un diseño factorial, no habría diferencia debido al orden de ingreso de los factores en el modelo, independientemente de cómo se realice ANOVA. * Los casos en cuestión , evidentemente de una cohorte clínica retrospectiva, parece ser de un mundo real donde no se encontró ese equilibrio. Entonces el orden podría importar.
En segundo lugar, depende de cómo se realice el ANOVA, que es un tema un tanto polémico. Los tipos de ANOVA para diseños desequilibrados difieren en el orden de evaluación de los principales efectos e interacciones. La evaluación de las interacciones es fundamental para ANOVA de dos vías y de orden superior, por lo que hay disputas sobre la mejor manera de proceder. Vea esta página de validación cruzada para una explicación y discusión. Vea los Detalles y la Advertencia para la función Anova()
(con una "A" mayúscula) en el manual del car
paquete para una vista diferente.
El orden de los factores sí importa en los diseños desequilibrados bajo el valor predeterminado aov()
en R, que utiliza lo que se denomina pruebas de tipo I. Estas son atribuciones secuenciales de varianza a factores en el orden de entrada en el modelo, como se preveía en la presente pregunta. El orden no importa con las pruebas de tipo II o tipo III proporcionadas por la Anova()
función en el car
paquete en R. Sin embargo, estas alternativas tienen sus propias desventajas potenciales que se indican en los enlaces anteriores.
Finalmente, considere la relación con la regresión lineal múltiple como lm()
en R, que es esencialmente el mismo tipo de modelo si incluye términos de interacción. El orden de entrada de variables en lm()
no importa en términos de coeficientes de regresión y valores p informados por summary(lm())
, en el que un factor categórico de nivel k se codifica como variables binarias binarias (k-1) y se informa un coeficiente de regresión para cada ficticio. .
Sin embargo, es posible envolver la lm()
salida con anova()
("a" en minúscula del stats
paquete R ) o Anova()
resumir la influencia de cada factor en todos sus niveles, como se espera en el ANOVA clásico. Entonces, el orden de los factores será importante anova()
para aov()
, y no será importante para Anova()
. Del mismo modo, las disputas sobre qué tipo de ANOVA utilizarían regresarían. Por lo tanto, no es seguro asumir la independencia del orden de entrada de factores con todos los usos lm()
posteriores de los modelos.
* Tener un número igual de observaciones en todas las celdas es suficiente pero, según tengo entendido, no es necesario para que el orden de los factores sea irrelevante. Los tipos de equilibrio menos exigentes pueden permitir la independencia del orden.