Cuando se trata de datos con factores, R puede usarse para calcular las medias para cada grupo con la función lm (). Esto también proporciona los errores estándar para las medias estimadas. Pero este error estándar difiere de lo que obtengo de un cálculo a mano.
Aquí hay un ejemplo (tomado de aquí Prediciendo la diferencia entre dos grupos en R )
Primero calcule la media con lm ():
mtcars$cyl <- factor(mtcars$cyl)
mylm <- lm(mpg ~ cyl, data = mtcars)
summary(mylm)$coef
Estimate Std. Error t value Pr(>|t|)
(Intercept) 26.663636 0.9718008 27.437347 2.688358e-22
cyl6 -6.920779 1.5583482 -4.441099 1.194696e-04
cyl8 -11.563636 1.2986235 -8.904534 8.568209e-10
La intersección es la media para el primer grupo, los autos de 4 cilindros. Para obtener los medios por cálculo directo, uso esto:
with(mtcars, tapply(mpg, cyl, mean))
4 6 8
26.66364 19.74286 15.10000
Para obtener los errores estándar para las medias, calculo la variación estándar de la muestra y la divido por el número de observaciones en cada grupo:
with(mtcars, tapply(mpg, cyl, sd)/sqrt(summary(mtcars$cyl)) )
4 6 8
1.3597642 0.5493967 0.6842016
El cálculo directo da la misma media pero el error estándar es diferente para los 2 enfoques, esperaba obtener el mismo error estándar. ¿Que esta pasando aqui? ¿Está relacionado con lm () ajustando la media para cada grupo y un término de error?
Editado: después de la respuesta de Svens (abajo) puedo formular mi pregunta de manera más concisa y clara.
Para datos categóricos, podemos calcular las medias de una variable para diferentes grupos usando lm () sin una intercepción.
mtcars$cyl <- factor(mtcars$cyl)
mylm <- lm(mpg ~ cyl, data = mtcars)
summary(mylm)$coef
Estimate Std. Error
cyl4 26.66364 0.9718008
cyl6 19.74286 1.2182168
cyl8 15.10000 0.8614094
Podemos comparar esto con un cálculo directo de las medias y sus errores estándar:
with(mtcars, tapply(mpg, cyl, mean))
4 6 8
26.66364 19.74286 15.10000
with(mtcars, tapply(mpg, cyl, sd)/sqrt(summary(mtcars$cyl)) )
4 6 8
1.3597642 0.5493967 0.6842016
Los medios son exactamente los mismos, pero los errores estándar son diferentes para estos 2 métodos (como también lo nota Sven). Mi pregunta es ¿por qué son diferentes y no son lo mismo?
(al editar mi pregunta, ¿debo eliminar el texto original o agregar mi edición como lo hice)