Intervalos de significancia y credibilidad para el término de interacción en regresión logística

Instalé una regresión logística bayesiana en WinBugs y tiene un término de interacción. Algo como esto:

P r o b (y_{i} = 1) = {l o g i t}^{- 1} (a + b_{1} * x_{i} + b_{2} * w_{i} + b_{3} * x_{i} * w_{i})

$\mathrm{Prob}(y_{i}=1) = \mathrm{logit}^{-1} (a + b_{1}*x_{i} + b_{2}*w_{i} + b_{3}*x_{i}*w_{i})$

dónde $x$ es una variable continua estandarizada, y $w$ Es una variable ficticia. En realidad, el modelo es más complicado, pero quiero mantener las cosas simples.

Sucede que el término de interacción es "significativo", pero no los predictores individuales. Por ejemplo,

$\mathrm{mean}(b_{1}) = -.2$ y $95%$ cuantil: $(-1.3$ y $.7)$

$\mathrm{mean}(b_{2}) = -.4$ y $95%$ cuantil: $(-1.3$ y $.5)$

$\mathrm{mean}(b_{3}) = 1.4$ y $95%$ cuantil: $(.4$ y $2.5)$

¿Tienen algún consejo sobre cómo reaccionar ante este hallazgo? Pensé que podía calcular intervalos de credibilidad del 95% para todo el efecto de $x$ cuando $w=1$ . Esto sería: 95% cuantil para el efecto total de x, condicional en $w=1$ : $(-1.3+.4$ y $.7+2.5) = (-.9 + 3.2)$

¿Es esto correcto? Si no, ¿qué debo hacer? ¿Alguna referencia sobre el tema?

— Manoel Galdino
fuente

Respuestas:

No, su cálculo no es correcto porque:

una) $b_1$ y $b_3$ probablemente están correlacionados en la distribución posterior, y

b) incluso si no lo fueran, no es así como lo calcularía (piense en la ley de los grandes números).

Pero no temas, hay una manera realmente fácil de hacer esto en WinBUGS. Simplemente defina una nueva variable:

b1b3 <- b1 + b3

y monitorear sus valores.

EDITAR:

Para una mejor explicación de mi primer punto, supongamos que la parte posterior tiene una distribución normal multivariada conjunta (no lo hará en este caso, pero sirve como una ilustración útil). Entonces el parámetro $b_i$ tiene distribución $N(\mu_i,\sigma_i^2)$ , y entonces el intervalo de 95% creíble es $(\mu_i - 1.96 \sigma_i,\mu_i + 1.96 \sigma_i)$ - tenga en cuenta que esto solo depende de la media y la varianza.

Ahora $b_1+b_3$ tendrá distribución $N(\mu_1 + \mu_3,\sigma_1^2 + 2 \rho_{13}\sigma_1\sigma_3 + \sigma_3^2)$ . Tenga en cuenta que el término de varianza (y, por lo tanto, el intervalo creíble del 95%) implica el término de correlación $\rho_{13}$ que no se puede encontrar en los intervalos de $b_1$ o $b_3$ .

(Mi punto sobre la ley de los grandes números era solo que las desviaciones estándar de la suma de 2 variables aleatorias independientes es menor que la suma de las desviaciones estándar).

En cuanto a cómo implementarlo en WinBUGS, algo como esto es lo que tenía en mente:

model {
  a ~ dXXXX
  b1 ~ dXXXX
  b2 ~ dXXXX
  b3 ~ dXXXX
  b1b3 <- b1 + b3

  for (i in 1:N) {
    logit(p[i]) <- a + b1*x[i] + b2*w[i] + b3*x[i]*w[i]
    y[i] ~ dbern(p[i])
  }
}

En cada paso de la muestra, el nodo b1b3se actualizará desde b1y b3. No necesita un previo ya que es solo una función determinista de otros dos nodos.

— Simon Byrne
fuente

No estoy seguro de entender tu comunicador. Si b1 y b3 están correlacionados, ¿por qué es importante? Quiero decir, su distribución conjunta tiene que caracterizarse con algún parámetro de correlación, pero ¿y qué? Tengo sus distribuciones marginales. 2. No entendí que mencionaras sobre la ley de los grandes números. ¿Podrías ampliarlo? Finalmente, ¿estás sugiriendo que debería agregar b1 + b3 en el bucle principal? ¿Y solo necesito usar un vago antes de este nuevo parámetro? ¡Gracias!

— Manoel Galdino

Algunas reflexiones: 1) No estoy seguro si el hecho de que esto sea Bayesiano es importante. 2) Creo que su enfoque es correcto 3) Las interacciones en la regresión logística son complicadas. Escribí sobre esto en un artículo que trata sobre SAS PROC LOGISTIC, pero la idea general es válida. Ese artículo está en mi blog y está disponible aquí.

— Peter Flom
fuente

Estoy de acuerdo en que es probable que bayesiano o no no importe. Solo dije que era bayesiano por si importaba.

— Manoel Galdino

Actualmente estoy teniendo un problema similar. También creo que el enfoque para calcular el efecto total de w es correcto. Creo que esto se puede probar a través de

h0: b2 + b3 * media (x) = 0; ha: b2 + b3 * media (x)! = 0

Sin embargo, me topé con un artículo de Ai / Norton, quien afirma que "la magnitud del efecto de interacción en modelos no lineales no es igual al efecto marginal del término de interacción, puede ser de signo opuesto, y su importancia estadística no se calcula por software estándar ". (2003, p. 123)

Entonces quizás deberías intentar aplicar sus fórmulas. (Y si comprende cómo hacerlo, dígame).

PD. Esto parece parecerse a la prueba de Chow para regresiones logísticas. Alfred DeMaris (2004, p. 283) describe una prueba para esto.

Referencias

Ai, Chunrong / Norton, Edward (2003): Términos de interacción en modelos logit y probit, Economic Letters 80, p. 123-129

DeMaris, Alfred (2004): Regresión con datos sociales: modelado de variables de respuesta continua y limitada. John Wiley & Sons, Inc., Hoboken NJ

— mzuba
fuente

Gracias por la referencia Lo echaré un vistazo e informaré aquí si hago algún progreso al respecto. Con respecto a su prueba sugerida, no creo que haga el trabajo. Recuerde primero que la interacción es bidireccional, desde x con w y w con x. Con esto quiero decir que incluso si h0 es verdadero, todavía es posible decir h2: b1 + b2 * mean (w) no es cero. Además, en general sé de antemano que la hipótesis nula es falsa, es decir, en general no existe un efecto cero. Con una muestra grande y suficiente, puedo encontrar cualquier efecto significativo.

— Manoel Galdino

Y otro punto. Incluso si h0 y h2 son verdaderas, aún es posible decir h3: b2 + b3 * (mean (x) + sd (x))! = 0. En otras palabras, deberíamos comprobar no solo la media de x (o w), pero para toda la distribución de valores, ya que un término de interacción es una forma de decir que el efecto predictivo varía según los subgrupos de predictores.

— Manoel Galdino

No entiendo completamente lo que quieres decir. Al probar si b2 + b3 * media (x) == 0, siempre se compara con alguna estadística de prueba para determinar si el resultado es significativamente diferente de cero, la desviación estándar de x no es el único factor relevante.

— mzuba

Sobre lo que dijiste ... No estoy seguro si te entiendo completamente tampoco. En cualquier caso, uno de mis puntos fue: incluso si no rechazamos la hipótesis nula de que b2 + b3 * significa (x) == 0, solo significa que no podemos decir que el efecto promedio de W, condicional en valores promedio de x, no es cero. Sin embargo, el objetivo de un término de interacción es que queremos condicionar el efecto de W no solo en el promedio x, ¡sino en toda la distribución de x!

— Manoel Galdino

Bien. Veo a que te refieres. (El inglés tampoco es mi primer idioma). Creo que lo que escribió es cierto y también es por eso que Ai / Norton traza el efecto de interacción contra toda la distribución de prob (x): para algunos valores de x, el efecto de interacción es positivo, para otros no lo es. Sin embargo, creo que el hecho de que calcules el efecto de W, que es un maniquí, podría (?) Facilitar las cosas, porque puede interpretarse como prueba de chow, ruptura estructural, subpoblación, etc. (¿Quieres calcular el efecto de paso de w 0 → 1, o ¿está interesado en el efecto de interacción?)

— mzuba