Una pregunta probablemente muy básica sobre ANOVA multifactorial. Supongamos un diseño bidireccional donde probamos los efectos principales A, B y la interacción A: B. Cuando se prueba el efecto principal para A con SS tipo I, el efecto SS se calcula como la diferencia , donde es la suma de cuadrados de error residual para el modelo con solo la intersección y RSS para el modelo con factor A agregado. Mi pregunta se refiere a la elección del término de error:R S S ( A )
¿Cómo justifica que el término de error para esta prueba se calcula típicamente a partir del RSS del modelo completo A + B + A: B que incluye tanto los efectos principales como la interacción?
... en lugar de tomar el término de error del modelo no restringido de la comparación real (RSS del efecto principal A en el caso anterior):
Esto hace la diferencia, ya que el término de error del modelo completo es a menudo (no siempre) más pequeño que el término de error del modelo no restringido en la comparación. Parece que la elección del término de error es algo arbitraria, creando espacio para los cambios deseados del valor p simplemente agregando / eliminando factores que no son realmente interesantes, pero cambie el término del error de todos modos.
En el siguiente ejemplo, el valor F para A cambia considerablemente dependiendo de la elección del modelo completo, a pesar de que la comparación real para el efecto SS permanece igual.
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+ 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+ 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)
> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1)) # full model = unrestricted model (just A)
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.556 0.9342 0.4009
Residuals 42 2272.80 54.114
> anova(lm(DV ~ IV1 + IV2)) # full model = A+B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.9833 0.1509
IV2 2 1253.19 626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61 25.49
> anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.8102 0.1782
IV2 2 1253.19 626.59 22.4357 4.711e-07 ***
IV1:IV2 4 14.19 3.55 0.1270 0.9717
Residuals 36 1005.42 27.93
La misma pregunta se aplica al SS de tipo II y, en general, a una hipótesis lineal general, es decir, a una comparación de modelo entre un modelo restringido y uno no restringido dentro de un modelo completo. (Para el tipo III SS, el modelo sin restricciones siempre es el modelo completo, por lo que la pregunta no surge allí)
IV1
(1er ejemplo), entonces las dos expresiones para el denominador son idénticas. Sin embargo, cuando el modelo completo contiene efectos adicionales, el denominador para la prueba cambia aunque la comparación del modelo ( vs. para el tipo 1 SS) no lo hace. En los 3 ejemplos, el cuadrado medio para A no cambia (la misma comparación de modelos en todos los casos), pero el error cuadrado medio sí. Estoy interesado en lo que justifica el cambio del término de error cuando la comparación real sigue siendo la misma. ~ 1
~ IV1 + 1
anova(lm(DV ~ IV1))
anova(lm(DV ~ 1))
anova(lm(DV ~ IV1))