Regresión vs discrepancia ANOVA (aov vs lm en R)


21

Siempre tuve la impresión de que la regresión es solo una forma más general de ANOVA y que los resultados serían idénticos. Recientemente, sin embargo, ejecuté una regresión y un ANOVA en los mismos datos y los resultados difieren significativamente. Es decir, en el modelo de regresión, tanto los efectos principales como la interacción son significativos, mientras que en el ANOVA un efecto principal no es significativo. Espero que esto tenga algo que ver con la interacción, pero no me queda claro qué es diferente acerca de estas dos formas de modelar la misma pregunta. Si es importante, un predictor es categórico y el otro es continuo, como se indica en la simulación a continuación.

Aquí hay un ejemplo de cómo se ven mis datos y qué análisis estoy ejecutando, pero sin que los mismos valores o efectos p sean significativos en los resultados (mis resultados reales se describen anteriormente):

group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)

summary(lm(score~group*moderator))
summary(aov(score~group*moderator))

summary (lm ()) le proporciona los coeficientes para los contrastes que ha especificado, que son contrastes de tratamiento en ausencia de especificación aquí. Mientras el resumen (aov ()) le está dando la tabla anova. Si quieres el anova para el modelo lm necesitas anova (lm ())
Matt Albrecht

groupes un vector numérico, ¿es esto a propósito? Normalmente, los factores de agrupación deben tener clase factor, de modo que la transformación a contrastes pueda manejarse automáticamente mediante funciones como lm(). Esto se hará evidente una vez que tenga más de dos grupos, o use una codificación que no sea 0/1 para su groupvariable.
caracal

Respuestas:


17

La summaryfunción llama a diferentes métodos dependiendo de la clase del objeto. La diferencia no está en el aovvs lm, sino en la información presentada sobre los modelos. Por ejemplo, si usó anova(mod1)y en su anova(mod2)lugar, debería obtener los mismos resultados.

Como dice @Glen, la clave es si las pruebas informadas se basan en sumas de cuadrados Tipo 1 o Tipo 3. Estos diferirán cuando la correlación entre sus variables explicativas no sea exactamente 0. Cuando están correlacionadas, algunos SS son únicos para un predictor y otros para el otro, pero algunos SS pueden atribuirse a uno o ambos. ( Puede visualizar esto imaginando el símbolo de MasterCard- hay una pequeña región de superposición en el centro.) No hay una respuesta única en esta situación, y desafortunadamente, esta es la norma para los datos no experimentales. Un enfoque es que el analista use su juicio y asigne el SS superpuesto a una de las variables. Esa variable entra primero en el modelo. La otra variable entra en el modelo en segundo lugar y obtiene el SS que parece una cookie con una mordida sacada. Su efecto puede ser probado por lo que a veces se llama R2cambiar o cambiar F. Este enfoque utiliza el tipo 1 SS. Alternativamente, puede hacer esto dos veces con cada entrada primero e informar la prueba de cambio F para ambos predictores. De esta manera, ninguna variable obtiene el SS debido a la superposición. Este enfoque utiliza el tipo 3 SS. (También debería decirle que este último enfoque se tiene en baja consideración).

Siguiendo la sugerencia de @BrettMagill en el comentario a continuación, puedo intentar aclarar esto un poco. (Tenga en cuenta que, en mi ejemplo, estoy usando solo 2 predictores y ninguna interacción, pero esta idea se puede ampliar para incluir lo que quiera).

Tipo 1: SS (A) y SS (B | A)

Tipo 3: SS (A | B) y SS (B | A)


1
Esta es una buena descripción del problema. Puede aclarar un poco el texto con esto: Tipo I: SS_A = SS (A) SS_B = SS (B | A) y SS_AB = SS (AB | B, A) Tipo III: SS_A = SS (A | B, AB ) y SS_B = SS (B | A, AB) y SS_AB = SS (AB | A, B)
Brett

1
Muchas gracias por tu ayuda. Ahora entiendo lo que está sucediendo en términos de cómo estos modelos son diferentes, pero todavía no tengo claro cuándo sería apropiado usar un modelo anova o de regresión. Mi asesor está asesorando a anova, pero siempre me han enseñado a usar la regresión y no estoy seguro de cuál es más apropiado cuando los resultados son divergentes. ¿Tiene algún ejemplo o un recurso para asesorar sobre cuándo sería apropiado? De nuevo, gracias por tu ayuda.
Rebecca

1
Lo siento, no te sigo. Mi punto es que los modelos no son realmente diferentes. Un ANOVA es una regresión con todos los predictores cualitativos. Si tiene un modelo de regresión con predictores continuos y cualitativos, e ingresa primero el predictor continuo, luego los predictores cualitativos (pero sin un término de interacción) es ANCOVA. Cualquier enfoque está bien, ya que 'detrás de escena' son idénticos. Usualmente codifico esto como una regresión, pero eso es una cuestión de estilo. OTOH, si su asesor quiere que funcione al estilo ANOVA, entonces siga esa ruta, ya que no hay diferencia.
gung - Restablece a Monica

2
Algunas cosas: (3 arriba) una interacción no significa que sus variables independientes estén correlacionadas, estas son solo cosas diferentes; (2 arriba) si el modelo 3 es significativamente mejor que el modelo 2, entonces sí, esto sugiere que la interacción es significativa (ya que la interacción es lo único que difiere entre ellos); (1 arriba) desea evitar la pesca de efectos significativos a menos que esté pensando en su estudio como piloto que utilizará para planificar un estudio confirmatorio posterior (en este caso, creo que está bien); Supongo que hiciste este estudio para ver los tres, así que ve con el modelo 3.
gung - Restablece a Monica

2
Además, una interacción implica que no debe interpretar los efectos principales, por lo que presentar solo el modelo 1 podría ser peligrosamente engañoso. Si desea obtener más información sobre los tipos de SS, escribí una respuesta bastante completa aquí: stats.stackexchange.com/questions/20452/… Además, debe aceptar una de las respuestas, en algún momento, haciendo clic en la marca de verificación junto a uno de ellos.
gung - Restablece a Monica

10

Los resultados de la salida aov le dan probabilidades basadas en la suma de cuadrados del Tipo 1. Es por eso que el resultado de la interacción es el mismo y los efectos principales difieren.

Si usa probabilidades basadas en la suma de cuadrados del Tipo 3, entonces coincidirán con los resultados de la regresión lineal.

library(car)
Anova(aov(score~group*moderator),type=3)

55
Los modelos lineales y ANOVA serán equivalentes cuando los modelos estén probando las mismas hipótesis y cuando la parametrización de los factores sea equivalente. Las llamadas sumas "Tipo I" y "Tipo III" son cuadrados, son simplemente pruebas de diferentes hipótesis subyacentes (efectos de sumas secuenciales de cuadrados versus sumas marginales de cuadrados). ANOVA tiende a ocultar algunas de estas decisiones tal como se implementan en muchos paquetes, un hecho que me hace creer que establecer y probar las hipótesis de interés mediante la parametrización de factores y la comparación de modelos en GLM es un enfoque superior.
Brett

+1, creo que tienes un error tipográfico. lm está usando SS Tipo 1 y aov está usando SS Tipo 3.
gung - Restablece a Monica

2
Las sumas de cuadrados de tipo III (marginal) se usan por defecto en lm. AOV usaría Tipo I (secuencial) por defecto. Los resultados de LM no varían según el orden, mientras que los resultados de aov dependen del orden de los factores.
Brett

Pensé que tanto lm como aov usaban el tipo I por defecto, de ahí el uso del capital A Anova () para los tipos II y III.
Matt Albrecht

66
En general, Anova(..., type=3)será no darle tipo correcto III SS, a menos que también cambia de contrastes de tratamiento (por defecto en R) a efecto de codificación para los factores no ordenadas ( options(contrasts=c("contr.sum", "contr.poly"))) o algunos otros códigos de contraste suma a cero (por ejemplo, Helmert). Esto se hará evidente una vez que tenga tamaños de celda desequilibrados y más de dos grupos y también se menciona en la página de ayuda Anova().
caracal

-2

La principal diferencia entre la regresión lineal y ANOVA es que, en ANOVA, las variables predictoras son discretas (es decir, tienen diferentes niveles). Mientras que en la regresión lineal, las variables predictoras son continuas.


3
Esto no es generalmente cierto.
Michael R. Chernick

Lo leí en alguna parte de internet. ¿Puede explicar la diferencia clave? Soy un novato
vivek
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.