Mi pregunta principal es cómo interpretar la salida (coeficientes, F, P) al realizar un ANOVA tipo I (secuencial).
Mi problema de investigación específico es un poco más complejo, por lo que dividiré mi ejemplo en partes. Primero, si estoy interesado en el efecto de la densidad de la araña (X1) en el crecimiento de la planta (Y1) y planto plántulas en recintos y manipulo la densidad de la araña, entonces puedo analizar los datos con un ANOVA simple o regresión lineal. Entonces no importaría si usara la suma de cuadrados (SS) Tipo I, II o III para mi ANOVA. En mi caso, tengo 4 réplicas de 5 niveles de densidad, por lo que puedo usar la densidad como factor o como variable continua. En este caso, prefiero interpretarlo como una variable continua independiente (predictor). En RI podría ejecutar lo siguiente:
lm1 <- lm(y1 ~ density, data = Ena)
summary(lm1)
anova(lm1)
Es de esperar que la ejecución de la función anova tenga sentido para una comparación posterior, así que ignore la rareza aquí. El resultado es:
Response: y1
Df Sum Sq Mean Sq F value Pr(>F)
density 1 0.48357 0.48357 3.4279 0.08058 .
Residuals 18 2.53920 0.14107
Ahora, supongamos que sospecho que el nivel inicial de nitrógeno inorgánico en el suelo, que no pude controlar, también puede haber afectado significativamente el crecimiento de la planta. No estoy particularmente interesado en este efecto, pero me gustaría dar cuenta de la variación que causa. Realmente, mi interés principal está en los efectos de la densidad de la araña (hipótesis: el aumento de la densidad de la araña causa un mayor crecimiento de las plantas, presumiblemente a través de la reducción de los insectos herbívoros, pero solo estoy probando el efecto, no el mecanismo). Podría agregar el efecto de N inorgánico a mi análisis.
En aras de mi pregunta, supongamos que pruebo la densidad de interacción * inorganicN y no es significativa, así que la elimino del análisis y ejecuto los siguientes efectos principales:
> lm2 <- lm(y1 ~ density + inorganicN, data = Ena)
> anova(lm2)
Analysis of Variance Table
Response: y1
Df Sum Sq Mean Sq F value Pr(>F)
density 1 0.48357 0.48357 3.4113 0.08223 .
inorganicN 1 0.12936 0.12936 0.9126 0.35282
Residuals 17 2.40983 0.14175
Ahora, hace una diferencia si uso SS Tipo I o Tipo II (sé que algunas personas se oponen a los términos Tipo I y II, etc., pero dada la popularidad de SAS es fácil de usar). R anova {stats} usa el Tipo I por defecto. Puedo calcular el tipo II SS, F y P para la densidad invirtiendo el orden de mis efectos principales o puedo usar el paquete "auto" del Dr. John Fox (compañero de la regresión aplicada). Prefiero el último método ya que es más fácil para problemas más complejos.
library(car)
Anova(lm2)
Sum Sq Df F value Pr(>F)
density 0.58425 1 4.1216 0.05829 .
inorganicN 0.12936 1 0.9126 0.35282
Residuals 2.40983 17
Tengo entendido que las hipótesis de tipo II serían: "No hay un efecto lineal de x1 en y1 dado el efecto de (¿constante?) X2" y lo mismo para x2 dado x1. Supongo que aquí es donde me confundo. ¿Cuál es la hipótesis que ANOVA está probando utilizando el método de tipo I (secuencial) anterior en comparación con la hipótesis que utiliza el método de tipo II?
En realidad, mis datos son un poco más complejos porque midí numerosas métricas de crecimiento de las plantas, así como la dinámica de los nutrientes y la descomposición de la basura. Mi análisis real es algo así como:
Y <- cbind(y1 + y2 + y3 + y4 + y5)
# Type II
mlm1 <- lm(Y ~ density + nitrate + Npred, data = Ena)
Manova(mlm1)
Type II MANOVA Tests: Pillai test statistic
Df test stat approx F num Df den Df Pr(>F)
density 1 0.34397 1 5 12 0.34269
nitrate 1 0.99994 40337 5 12 < 2e-16 ***
Npred 1 0.65582 5 5 12 0.01445 *
# Type I
maov1 <- manova(Y ~ density + nitrate + Npred, data = Ena)
summary(maov1)
Df Pillai approx F num Df den Df Pr(>F)
density 1 0.99950 4762 5 12 < 2e-16 ***
nitrate 1 0.99995 46248 5 12 < 2e-16 ***
Npred 1 0.65582 5 5 12 0.01445 *
Residuals 16