β^0 0β^
Si ampliamos un poco su ejemplo para incluir un tercer nivel en la categoría de raza (digamos asiático ) y elegimos Blanco como referencia, entonces tendría:
- β^0 0= x¯Wh i t e
- β^B l a c k= x¯B l a c k- x¯Wh i t e
- β^A s i a n= x¯A s i a n- x¯Wh i t e
β^
- X¯A s i a n= β^A s i a n+ β^0 0
Desafortunadamente, en el caso de múltiples variables categóricas, la interpretación correcta para la intercepción ya no es tan clara (ver nota al final). Cuando hay n categorías, cada una con múltiples niveles y un nivel de referencia (por ejemplo, Blanco y Masculino en su ejemplo), la forma general para la intersección es:
β^0 0= ∑nortei = 1X¯r e fe r e n c e , i- ( n - 1 ) x¯,
X¯r e fe r e n c e , i es la media del nivel de referencia de la i-ésima variable categórica,
X¯ es la media de todo el conjunto de datos
β^
Si volvemos a su ejemplo, obtendríamos:
- β^0 0= x¯Wh i t e+ x¯METROa l e- x¯
- β^B l a c k= x¯B l a c k- x¯Wh i t e
- β^A s i a n= x¯A s i a n- x¯Wh i t e
- β^Fe m a l e= x¯Fe m a l e- x¯METROa l e
β^
β^β^0 0, β ^B l a c k, β ^A s i a nβ^Fe m a l e
Ejemplo numérico
Déjame pedir prestado a @Gung para un ejemplo numérico enlatado:
d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
y =c(0, 3, 7, 8, 9, 10))
d
# Sex Race y
# 1 Male White 0
# 2 Female White 3
# 3 Male Black 7
# 4 Female Black 8
# 5 Male Asian 9
# 6 Female Asian 10
β^
aggregate(y~1, d, mean)
# y
# 1 6.166667
aggregate(y~Sex, d, mean)
# Sex y
# 1 Male 5.333333
# 2 Female 7.000000
aggregate(y~Race, d, mean)
# Race y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5
Podemos comparar estos números con los resultados de la regresión:
summary(lm(y~Sex+Race, d))
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 0.6667 0.6667 1.000 0.4226
# SexFemale 1.6667 0.6667 2.500 0.1296
# RaceBlack 6.0000 0.8165 7.348 0.0180
# RaceAsian 8.0000 0.8165 9.798 0.0103
β^β^0 0
β^0 0= x¯Wh i t e+ x¯METROa l e- x¯
1.5 + 5.333333 - 6.166667
# 0.66666
Nota sobre la elección del contraste
β^
β^c o n t r . s u mβ^c o n t r . s u m
- β^c o n t r . s u m0 0= x¯
- β^c o n t r . s u myo= x¯yo- x¯
Si volvemos al ejemplo anterior, tendría:
- β^c o n t r . s u m0 0= x¯
- β^c o n t r . s u mWh i t e= x¯Wh i t e- x¯
- β^c o n t r . s u mB l a c k= x¯B l a c k- x¯
- β^c o n t r . s u mA s i a n= x¯A s i a n- x¯
- β^c o n t r . s u mMETROa l e= x¯METROa l e- x¯
- β^c o n t r . s u mFe m a l e= x¯Fe m a l e- x¯
β^c o n t r . s u m