Interpretación de términos de interacción en la regresión logit con variables categóricas

25

Tengo datos de un experimento de encuesta en el que los encuestados fueron asignados aleatoriamente a uno de cuatro grupos:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66

Si bien los tres grupos de tratamiento varían ligeramente en el estímulo aplicado, la principal distinción que me importa es entre los grupos de control y tratamiento. Entonces definí una variable ficticia Control:

> summary(df$Control)
     TRUE FALSE 
       59   191

En la encuesta, se pidió a los encuestados (entre otras cosas) que eligieran cuál de las dos cosas preferían:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5

Luego, después de recibir algún estímulo según lo determinado por su grupo de tratamiento (y ninguno si estaban en el grupo de control), se pidió a los encuestados que eligieran entre las mismas dos cosas:

> summary(df$Choice)
  A    B 
149  101

Quiero saber si el hecho de estar en uno de los tres grupos de tratamiento tuvo un efecto en la elección que hicieron los encuestados en esta última pregunta. Mi hipótesis es que los encuestados que recibieron un tratamiento tienen más probabilidades de elegir Aque B.

Dado que estoy trabajando con datos categóricos, he decidido usar una regresión logit (siéntase libre de intervenir si cree que es incorrecto). Dado que los encuestados fueron asignados al azar, tengo la impresión de que no necesariamente necesito controlar otras variables (por ejemplo, datos demográficos), por lo que las he dejado fuera para esta pregunta. Mi primer modelo fue simplemente el siguiente:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

Tengo la impresión de que la intersección siendo estadísticamente significativa no es algo que tenga un significado interpretable. Pensé que tal vez debería incluir un término de interacción de la siguiente manera:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

Ahora el estado de los encuestados como en un grupo de tratamiento tiene el efecto esperado. ¿Era este un conjunto válido de pasos? ¿Cómo puedo interpretar el término de interacción ControlFALSE:PreferA? ¿Los otros coeficientes siguen siendo las probabilidades de registro?

— Pigmalión
fuente

Mi respuesta aquí es relevante: stats.stackexchange.com/questions/246873/…

— kjetil b halvorsen

31

Supongo que PreferA = 1 cuando se prefiere A y 0 de lo contrario y que ControlFALSE = 1 cuando se trata y 0 cuando se controla.

Las probabilidades de preferir A cuando una persona no lo hizo anteriormente y no recibió un tratamiento (ControlFALSE = 0 y PreferA = 0) es , es decir, hay 23 de esas personas que prefieren A por cada persona que prefiere B. Entonces, A es muy popular. $\exp(3.135)= 23$

El efecto del tratamiento se refiere a que una persona no prefería A previamente (PreferA = 0). En ese caso, las probabilidades de referencia disminuyen en un factor o cuando se somete al tratamiento. Entonces, las probabilidades de elegir A para aquellos que fueron tratados y que no prefirieron A anteriormente son , entonces hay 2.3 personas que prefieren A por cada persona que prefiere B. Entonces, entre este grupo A es aún más popular que B, pero menos que en el grupo no tratado / basal. $\exp(-2.309) = .099$ $(1-.099) \times 100\%=-90.1\%$ $.099*23=2.3$

El efecto de preferir A se refiere previamente a una persona que es un control (ControlFALSE = 0). En ese caso, las probabilidades de referencia disminuyen en un factor o cuando alguien prefirió A previamente. (Entonces, aquellos que consideraron A anteriormente son mucho menos propensos a hacerlo ahora. ¿Tiene sentido?) $.006$ $-99.4\%$

El efecto de interacción compara el efecto del tratamiento para aquellas personas que prefirieron A previamente y aquellas que no lo hicieron. Si una persona prefirió A anteriormente (PreferA = 1), entonces la razón de posibilidades del tratamiento aumenta en un factor . Entonces, el odds ratio de tratamiento para aquellos que prefirieron A anteriormente es . Alternativamente, este odds ratio de tratamiento para aquellos que prefirieron A anteriormente podría calcularse como . $\exp(2.850) = 17.3$ $17.3 \times .099 = 1.71$ $\exp(2.850 - 2.309)$

Entonces, la constante exponencial le da las probabilidades de línea de base , los coeficientes exponenciados de los efectos principales le dan las razones de probabilidades cuando la otra variable es igual a 0, y el coeficiente exponencial de los términos de interacción le indica la razón por la cual la razón de probabilidades cambia .

— Maarten Buis
fuente

Gracias Maarten, esto es muy útil, como lo es su respuesta a mi otra pregunta relacionada. Sin embargo, me gustaría un poco de aclaración sobre un punto. Como aludí en mi otra pregunta, me preocupa la validez estadística de lo que he hecho aquí debido al hecho de que ControlFALSEtiene un valor p alto en el primer modelo y luego uno bastante bajo en el segundo modelo. Aplicando su respuesta a mi otra pregunta a este caso específico, dijo que esto podría suceder si Controltuviera un efecto negativo en un grupo Prefery un efecto positivo en el otro.

— Pigmalión

(se quedó sin espacio) ¿Tiene sentido esa interpretación aquí? No estoy exactamente seguro de cómo aplicarlo directamente.

— Pigmalión

El efecto de ControlFALSEen el primer modelo es el efecto del tratamiento tanto para aquellos que prefirieron A previamente como para aquellos que no lo hicieron, mientras que el efecto en el segundo modelo es solo el efecto del tratamiento para aquellos que no prefirieron A previamente. Si eso está bien o no no es una pregunta estadística, pero si eso tiene o no un sentido sustantivo.

— Maarten Buis

@MaartenBuis Gran explicación. ¿Cómo haría los cálculos equivalentes para los intervalos de confianza de las estimaciones? Para facilitar la interpretación, he generalmente estratificada los modelos logísticos (por ejemplo, por la preferencia anterior en este ejemplo) y el uso del término de interacción como una "prueba estadística para diferencias significativas en o esto es aceptable.?

— bobmcpop

2

También encontré que este documento es útil para interpretar la interacción en la regresión logística:

Chen, JJ (2003). Comunicación de información compleja: la interpretación de la interacción estadística en el análisis de regresión logística múltiple . Revista estadounidense de salud pública , 93 (9), 1376-1377.

— en ultramar
fuente

44

He proporcionado una referencia completa (título, autor, fecha, revista, etc.), lo que significa que la contribución seguirá siendo útil si cambia la dirección del enlace. ¿Pero podría ampliarlo para resumir los contenidos? De lo contrario, esto es realmente más un comentario que una respuesta: preferimos que nuestras respuestas sean autónomas, por lo que son resistentes al "link-rot". Alternativamente, podemos convertir esto en un comentario para usted.

— Silverfish

Gracias. Estaba vinculando NCBI, así que pensé que estaría bien. Estoy de acuerdo con los cambios. ¡Gracias!

— 2016

0

Mi propia preferencia, cuando intento interpretar las interacciones en la regresión logística, es mirar las probabilidades predichas para cada combinación de variables categóricas. En su caso, esto sería solo 4 probabilidades:

Prefiero A, control verdadero
Prefiero A, control falso
Prefiero B, control verdadero
Prefiero B, control falso

Cuando tengo variables continuas, generalmente miro el valor predicho en la mediana, el primer y el tercer cuartil.

Aunque esto no llega directamente a la interpretación de cada coeficiente, encuentro que a menudo me permite a mí (y a mis clientes) ver lo que está sucediendo de manera clara.

— Peter Flom - Restablece a Monica
fuente