Los predictores significativos se vuelven no significativos en la regresión logística múltiple

Cuando analizo mis variables en dos modelos de regresión logística separados (univariados), obtengo lo siguiente:

Predictor 1:    B= 1.049,    SE=.352,    Exp(B)=2.85,    95% CI=(1.43, 5.69),    p=.003
   Constant:    B=-0.434,    SE=.217,    Exp(B)=0.65,                            p=.046

Predictor 2:    B= 1.379,    SE=.386,    Exp(B)=3.97,    95% CI=(1.86, 8.47),    p<.001
   Constant:    B=-0.447,    SE=.205,    Exp(B)=0.64,                            p=.029

pero cuando los ingreso en un solo modelo de regresión logística múltiple, obtengo:

Predictor 1:    B= 0.556,    SE=.406,    Exp(B)=1.74,    95% CI=(0.79, 3.86),    p=.171
Predictor 2:    B= 1.094,    SE=.436,    Exp(B)=2.99,    95% CI=(1.27, 7.02),    p=.012
   Constant:    B=-0.574,    SE=.227,    Exp(B)=0.56,                            p=.012

Ambos predictores son dicotómicos (categóricos). He verificado la multicolinealidad.

No estoy seguro de haber proporcionado suficiente información, pero no puedo entender por qué el predictor 1 ha pasado de ser significativo a no significativo y por qué las razones de probabilidades son tan diferentes en el modelo de regresión múltiple. ¿Alguien puede proporcionar una explicación básica de lo que está sucediendo?

logistic statistical-significance multiple-regression

— Annie
fuente

multivariante por lo general indica múltiples variables dependientes: te refieres a múltiples predictores, ¿verdad? Eso generalmente se conoce como regresión múltiple.

— Macro

Además, 's de diferentes modelos de regresión logística generalmente no son comparables. Esto se debe a que la escala ha cambiado; este es un problema sutil, pero la idea básica es que la varianza total (en la escala latente que surge naturalmente la regresión logística; ver en.wikipedia.org/wiki/… ) no está fijada en los modelos, por lo que no debe esperar que los coeficientes sean los mismos en todos los modelos, aunque eso no explicaría necesariamente el cambio en la significación estadística. ¿Cómo comprobó la dependencia entre los dos predictores?

β

$\beta$

— Macro

ah, ok gracias Verifiqué el diagnóstico de colinealidad a través de la regresión lineal en spss y verifiqué la tolerancia y VIF: ¿es esto correcto?

— Annie

Buen comentario @Macro. Recuerdo vagamente haber leído sobre formas de solucionar este problema sobre la escala, pero no recuerdo dónde.

— Peter Flom - Restablece a Monica

@PeterFlom, una cosa que puede hacer es escalar los coeficientes por la varianza de los predictores lineales (más , la varianza de la distribución logística estándar): esto los coloca en la misma escala. Por supuesto, ya no son interpretables como odds ratios una vez que haces esto.

π^{2} / 3

$\pi^{2}/3$

— Macro

Respuestas:

Hay varias razones (ninguna de las cuales está específicamente relacionada con la regresión logística, pero puede ocurrir en cualquier regresión).

Pérdida de grados de libertad: cuando se trata de estimar más parámetros de un conjunto de datos determinado, efectivamente está pidiendo más, lo que cuesta precisión, por lo tanto, conduce a estadísticas t más bajas, por lo tanto, valores p más altos.
Correlación de regresores: sus regresores pueden estar relacionados entre sí, midiendo efectivamente algo similar. Digamos que su modelo logit es explicar el estado del mercado laboral (trabajando / no trabajando) en función de la experiencia y la edad. Individualmente, ambas variables están positivamente relacionadas con el estado, ya que a los empleados más experimentados / mayores (descartando empleados muy antiguos por el argumento) les resulta más fácil encontrar trabajo que los recién graduados. Ahora, obviamente, las dos variables están fuertemente relacionadas, ya que debes ser mayor para tener más experiencia. Por lo tanto, las dos variables básicamente "compiten" por explicar el estado, lo que puede, especialmente en muestras pequeñas, dar como resultado que ambas variables "pierdan", ya que ninguno de los efectos puede ser lo suficientemente fuerte y lo suficientemente preciso cuando se controla para que el otro obtenga estimaciones significativas Básicamente, se pregunta: ¿cuál es el efecto positivo de otro año de experiencia cuando se mantiene constante la edad? Puede haber muy pocos o ningún empleado en su conjunto de datos para responder a esa pregunta, por lo que el efecto se calculará de manera imprecisa y dará lugar a grandes valores p.
Modelos especificados erróneamente: la teoría subyacente para las estadísticas t / valores p requiere que se estime un modelo especificado correctamente. Ahora, si solo retrocede en un predictor, hay muchas posibilidades de que ese modelo univariante sufra un sesgo variable omitido. Por lo tanto, todas las apuestas están apagadas sobre cómo se comportan los valores p. Básicamente, debe tener cuidado de confiar en ellos cuando su modelo no sea correcto.

— Christoph Hanck
fuente

Gracias por su respuesta completa y rápida. Intentaré eliminar cualquier multicolinealidad primero. He realizado correlaciones entre variables y he encontrado algunas, e intentaré ejecutar factores de inflación de varianza, ya que he oído que también es una buena manera de verificar esto. Si resulta ser solo un problema de grados de libertad, ¿hay algo que pueda hacer al respecto? Puedo explicar que esto está sucediendo, pero parece comprometer la integridad de la regresión si el significado cae tan severamente.

— Sam O'Brien

@ SamO'Brien: Tenga en cuenta que si su objetivo es realmente lo que dijo: "tratar de determinar" qué variables independientes pueden causar una respuesta ", ignorando algunas solo porque están correlacionadas con otras para" eliminar cualquier multicolinealidad " no va a ayudar a lograrlo.

— Scortchi - Reincorporar a Monica

¿Es posible tenerlo al revés, es decir, el mismo predictor no significativo en regresión simple pero significativo en regresión múltiple?

— gkcn

No hay una razón particular por la cual esto no debería suceder. La regresión múltiple hace una pregunta diferente de la regresión simple. En particular, la regresión múltiple (en este caso, la regresión logística múltiple) pregunta sobre la relación entre las variables dependientes y las variables independientes, controlando las otras variables independientes. La regresión simple pregunta sobre la relación entre una variable dependiente y una variable (individual) independiente.

Si agrega el contexto de su estudio (p. Ej., ¿Cuáles son estas variables?), Es posible dar respuestas más específicas. Además, dado que las tres variables en su caso son dicotomías, podría presentarnos los datos con bastante facilidad ... solo se necesitan 8 líneas para resumir esto:

\begin{array}{llll} D V & I V 1 & I V 2 & C o u n t \\ A & A & A & 10 \\ A & A & B & 20 \end{array}

$\begin{array}{llll} DV &IV1 &IV2 &{\rm Count} \\ A &A &A &10 \\ A &A &B &20 \end{array}$

etc.

— Peter Flom - Restablece a Monica
fuente