Sería interesante apreciar que la divergencia está en el tipo de variables , y más notablemente en los tipos de variables explicativas . En el ANOVA típico tenemos una variable categórica con diferentes grupos , e intentamos determinar si la medición de una variable continua difiere entre los grupos. Por otro lado, los MCO tienden a ser percibidos principalmente como un intento de evaluar la relación entre una variable de respuesta y respuesta continua y uno o múltiples regresores o variables explicativas . En este sentido, la regresión puede verse como una técnica diferente, que se presta para predecir valores basados en una línea de regresión.
Sin embargo , esta diferencia no soporta la extensión de ANOVA al resto del análisis de la sopa de letras del alfabeto (ANCOVA, MANOVA, MANCOVA); o la inclusión de variables codificadas ficticias en la regresión de OLS. No tengo claros los puntos de referencia históricos específicos, pero es como si ambas técnicas hubieran desarrollado adaptaciones paralelas para abordar modelos cada vez más complejos.
Por ejemplo, podemos ver que las diferencias entre ANCOVA versus OLS con variables ficticias (o categóricas) (en ambos casos con interacciones) son cosméticas como máximo. Disculpe mi partida de los límites en el título de su pregunta, con respecto a la regresión lineal múltiple.
En ambos casos, el modelo es esencialmente idéntico al punto en que en R la lm
función se usa para llevar a cabo ANCOVA . Sin embargo, se puede presentar como diferente con respecto a la inclusión de una intersección correspondiente al primer nivel (o grupo) de la variable factor (o categórica) en el modelo de regresión.
En un modelo equilibrado ( grupos igual tamaño , ) y solo una covariable (para simplificar la presentación de la matriz), la matriz del modelo en ANCOVA puede encontrarse como alguna variación de:n 1 , 2 , ⋯yonorte1 , 2 , ⋯yo
X= ⎡⎣⎢1norte10 00 00 01norte20 00 00 01norte3Xnorte10 00 00 0Xnorte20 00 00 0Xnorte3⎤⎦⎥
para grupos de la variable factor, expresada como matrices de bloques.3
Esto corresponde al modelo lineal:
α i β
y= αyo+ β1Xnorte1+ β2Xnorte2+ β3Xnorte3+ ϵyo
con equivalente a los diferentes medios de grupo en un ANOVA modelo, mientras que las diferentes 's son las pendientes de la covariable para cada uno de los grupos.
αyoβ
La presentación del mismo modelo en el campo de regresión, y específicamente en R, considera una intercepción general, correspondiente a uno de los grupos, y la matriz del modelo podría presentarse como:
X= ⎡⎣⎢⎢⎢⋮J3 n , 1⋮0 01norte20 00 00 01norte3⋮X⋮0 00 00 00 0Xnorte20 00 00 0Xnorte3⎤⎦⎥⎥⎥
de la ecuación OLS:
y= β0 0+ μyo+ β1Xnorte1+ β2Xnorte2+ β3Xnorte3+ ϵyo
.
En este modelo, la intercepción general se modifica en cada nivel de grupo por , y los grupos también tienen pendientes diferentes.μ iβ0 0μyo
Como puede ver en las matrices del modelo, la presentación desmiente la identidad real entre regresión y análisis de varianza.
Me gusta la clase de verificar esto con algunas líneas de código y los datos de mi preferido fijaron mtcars
en I . Estoy usando lm
ANCOVA según el documento de Ben Bolker disponible aquí .
mtcars$cyl <- as.factor(mtcars$cyl) # Cylinders variable into factor w 3 levels
D <- mtcars # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),] # Ordering obs. for block matrices.
model.matrix(lm(mpg ~ wt * cyl, D)) # This is the model matrix for ANCOVA
En cuanto a la parte de la pregunta sobre qué método usar (¡regresión con R!), Puede encontrar divertido este comentario en línea que encontré al escribir esta publicación.