Tengo datos de un experimento de encuesta en el que los encuestados fueron asignados aleatoriamente a uno de cuatro grupos:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Si bien los tres grupos de tratamiento varían ligeramente en el estímulo aplicado, la principal distinción que me importa es entre los grupos de control y tratamiento. Entonces definí una variable ficticia Control
:
> summary(df$Control)
TRUE FALSE
59 191
En la encuesta, se pidió a los encuestados (entre otras cosas) que eligieran cuál de las dos cosas preferían:
> summary(df$Prefer)
A B NA's
152 93 5
Luego, después de recibir algún estímulo según lo determinado por su grupo de tratamiento (y ninguno si estaban en el grupo de control), se pidió a los encuestados que eligieran entre las mismas dos cosas:
> summary(df$Choice)
A B
149 101
Quiero saber si el hecho de estar en uno de los tres grupos de tratamiento tuvo un efecto en la elección que hicieron los encuestados en esta última pregunta. Mi hipótesis es que los encuestados que recibieron un tratamiento tienen más probabilidades de elegir A
que B
.
Dado que estoy trabajando con datos categóricos, he decidido usar una regresión logit (siéntase libre de intervenir si cree que es incorrecto). Dado que los encuestados fueron asignados al azar, tengo la impresión de que no necesariamente necesito controlar otras variables (por ejemplo, datos demográficos), por lo que las he dejado fuera para esta pregunta. Mi primer modelo fue simplemente el siguiente:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
Tengo la impresión de que la intersección siendo estadísticamente significativa no es algo que tenga un significado interpretable. Pensé que tal vez debería incluir un término de interacción de la siguiente manera:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Ahora el estado de los encuestados como en un grupo de tratamiento tiene el efecto esperado. ¿Era este un conjunto válido de pasos? ¿Cómo puedo interpretar el término de interacción ControlFALSE:PreferA
? ¿Los otros coeficientes siguen siendo las probabilidades de registro?