Creo que este tema se ha discutido antes en este sitio bastante a fondo, si supiera dónde buscar. Por lo tanto, probablemente agregaré un comentario más adelante con algunos enlaces a otras preguntas, o puedo editarlo para proporcionar una explicación más completa si no puedo encontrar ninguna.
Hay dos posibilidades básicas: en primer lugar, el otro IV puede absorber parte de la variabilidad residual y, por lo tanto, aumentar la potencia de la prueba estadística del IV inicial. La segunda posibilidad es que tenga una variable supresora. Este es un tema muy contrario a la intuición, pero puede encontrar información aquí *, aquí o este excelente hilo de CV .
* Tenga en cuenta que necesita leer todo el camino hasta la parte inferior para llegar a la parte que explica las variables supresoras, puede simplemente avanzar hasta allí, pero será mejor leer todo.
Editar: como prometí, estoy agregando una explicación más completa de mi punto con respecto a cómo el otro IV puede absorber parte de la variabilidad residual y, por lo tanto, aumentar el poder de la prueba estadística del IV inicial. @whuber agregó un ejemplo impresionante, pero pensé que podría agregar un ejemplo complementario que explique este fenómeno de una manera diferente, lo que puede ayudar a algunas personas a comprender el fenómeno con mayor claridad. Además, demuestro que el segundo IV no tiene que estar más fuertemente asociado (aunque, en la práctica, casi siempre será para que ocurra este fenómeno).
Las covariables en un modelo de regresión pueden probarse con pruebas dividiendo la estimación del parámetro por su error estándar, o pueden probarse con pruebas F dividiendo las sumas de cuadrados. Cuando se usan SS tipo III, estos dos métodos de prueba serán equivalentes (para obtener más información sobre los tipos de SS y las pruebas asociadas, puede ser útil leer mi respuesta aquí: Cómo interpretar las SS tipo I ). Para aquellos que recién comienzan a aprender sobre los métodos de regresión, las pruebas t son a menudo el foco porque parecen más fáciles de entender para las personas. Sin embargo, este es un caso en el que creo que mirar la tabla ANOVA es más útil. Recordemos la tabla ANOVA básica para un modelo de regresión simple: tFt
FuenteX1ResidualTotalSS∑ ( y^yo- y¯)2∑ ( yyo- y^yo)2∑ ( yyo- y¯)2df1norte- ( 1 + 1 )norte- 1SRASSX1dfX1SSr e sdfr e sFSRAX1SRAr e s
Aquí es la media de Y , y i es el valor observado de y para la unidad (por ejemplo, paciente) i , y i es el valor predicho de modelo para la unidad i , y N es el número total de unidades en el estudio. Si tiene un modelo de regresión múltiple con dos covariables ortogonales, la tabla ANOVA podría construirse así: y¯yyyoyyoy^yoyonorte
FuenteX1X2ResidualTotalSS∑ ( y^X1 iX¯2- y¯)2∑ ( y^X¯1X2 i- y¯)2∑ ( yyo- y^yo)2∑ ( yyo- y¯)2df11norte- ( 2 + 1 )norte- 1SRASSX1dfX1SSX2dfX2SSr e sdfr e sFSRAX1SRAr e sSRAX2SRAr e s
Aquí y x 1 i, por ejemplo, es el valor predicho para la unidadisi su valor observado parax1era su valor real observado, pero su valor observado parax2fue la media dex2. Por supuesto, es posible queˉx2seael valor observado dex2y^X1 iX¯2yoX1X2X2X¯2 X2para alguna observación, en cuyo caso no hay que hacer ajustes, pero este no suele ser el caso. Tenga en cuenta que este método para crear la tabla ANOVA solo es válido si todas las variables son ortogonales; Este es un caso altamente simplificado creado con fines expositivos.
Si consideramos la situación en la que se utilizan los mismos datos para ajustar un modelo con y sin , entonces la y observadaX2y valores de y serán los mismos. Por lo tanto, el SS total debe ser el mismo en ambas tablas ANOVA. Además, si x 1 y x 2 son ortogonales entre sí, entonces S S x 1 será idéntico en ambas tablas ANOVA también. Entonces, ¿cómo es que puede haber sumas de cuadrados asociados con x 2 en la tabla? ¿De dónde vinieron si el total de SS y S S x 1y¯X1X2SSX1X2SSX1¿son lo mismo? La respuesta es que vinieron de . Los df x 2 también se toman de df res . SSresdfX2dfres
Ahora la prueba de x 1 es la M SFX1 dividida porMSresen ambos casos. ComoMS x 1 es el mismo, la diferencia en la importancia de esta prueba proviene del cambio enMSres, que ha cambiado de dos maneras: comenzó con menos SS, porque algunos se asignaron ax2, pero esos son dividido por menos df, ya que algunos grados de libertad también se asignaron ax2. El cambio en el significado / poder de lapruebaF(y equivalentemente elMETROSX1METROSresMETROSX1METROSresX2X2F -test, en este caso) se debe a cómo se intercambian esos dos cambios. Si se le da más SS a x 2 , en relación con el df que se le da a x 2 , entonces la resolución M S disminuirá, lo que hará que la F asociada con x 1 aumente y p se vuelva más significativo. tX2X2METROSresFX1pags
El efecto de no tiene que ser mayor que x 1 para que esto ocurra, pero si no es así, los cambios en los valores p serán bastante pequeños. La única forma en que terminará cambiando entre la no significancia y la significación es si los valores p son solo ligeramente en ambos lados de alfa. Aquí hay un ejemplo, codificado en : X2X1pagspagsR
x1 = rep(1:3, times=15)
x2 = rep(1:3, each=15)
cor(x1, x2) # [1] 0
set.seed(11628)
y = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
model1 = lm(y~x1)
model12 = lm(y~x1+x2)
anova(model1)
# ...
# Df Sum Sq Mean Sq F value Pr(>F)
# x1 1 5.314 5.3136 3.9568 0.05307 .
# Residuals 43 57.745 1.3429
# ...
anova(model12)
# ...
# Df Sum Sq Mean Sq F value Pr(>F)
# x1 1 5.314 5.3136 4.2471 0.04555 *
# x2 1 5.198 5.1979 4.1546 0.04785 *
# Residuals 42 52.547 1.2511
# ...
De hecho, no tiene que ser significativo en absoluto. Considerar: X2
set.seed(1201)
y = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
anova(model1)
# ...
# Df Sum Sq Mean Sq F value Pr(>F)
# x1 1 3.631 3.6310 3.8461 0.05636 .
# ...
anova(model12)
# ...
# Df Sum Sq Mean Sq F value Pr(>F)
# x1 1 3.631 3.6310 4.0740 0.04996 *
# x2 1 3.162 3.1620 3.5478 0.06656 .
# ...
Sin duda, estos no son nada como el dramático ejemplo en la publicación de @ whuber, pero pueden ayudar a las personas a comprender lo que está sucediendo aquí.