Me gustaría sugerir que este fenómeno (de una prueba general no significativa a pesar de una variable individual significativa) puede entenderse como una especie de "efecto de enmascaramiento" agregado y que, aunque posiblemente podría surgir de variables explicativas multicolineales, no es necesario eso en absoluto. También resulta que no se debe a múltiples ajustes de comparación, tampoco. Por lo tanto, esta respuesta agrega algunas calificaciones a las respuestas que ya han aparecido, que por el contrario sugieren que la multicolinealidad o las comparaciones múltiples deben considerarse como los culpables.
Para establecer la plausibilidad de estas afirmaciones, generemos una colección de variables perfectamente ortogonales , tan no colineales como sea posible, y una variable dependiente que se determina explícitamente únicamente por el primero de los explicados (más una buena cantidad de error aleatorio independiente de todo lo demás). En R
esto se puede hacer (de forma reproducible, si desea experimentar) como
set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)
No es importante que las variables explicativas sean binarias; lo que importa es su ortogonalidad, que podemos verificar para asegurarnos de que el código funcione como se esperaba, lo que se puede hacer inspeccionando sus correlaciones. De hecho, la matriz de correlación es interesante : los coeficientes pequeños sugieren que y
tiene poco que ver con cualquiera de las variables, excepto la primera (que es por diseño) y los ceros fuera de la diagonal confirman la ortogonalidad de las variables explicativas:
> cor(cbind(x,y))
Var1 Var2 Var3 Var4 Var5 y
Var1 1.00 0.000 0.000 0.000 0.00 0.486
Var2 0.00 1.000 0.000 0.000 0.00 0.088
Var3 0.00 0.000 1.000 0.000 0.00 0.044
Var4 0.00 0.000 0.000 1.000 0.00 -0.014
Var5 0.00 0.000 0.000 0.000 1.00 -0.167
y 0.49 0.088 0.044 -0.014 -0.17 1.000
Ejecutemos una serie de regresiones , usando solo la primera variable, luego las dos primeras, y así sucesivamente. Por brevedad y fácil comparación, en cada una solo muestro la línea para la primera variable y la prueba F general:
>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))
# Estimate Std. Error t value Pr(>|t|)
1 x[, 1:i] 0.898 0.294 3.05 0.0048 **
F-statistic: 9.29 on 1 and 30 DF, p-value: 0.00478
2 x[, 1:i]Var1 0.898 0.298 3.01 0.0053 **
F-statistic: 4.68 on 2 and 29 DF, p-value: 0.0173
3 x[, 1:i]Var1 0.8975 0.3029 2.96 0.0062 **
F-statistic: 3.05 on 3 and 28 DF, p-value: 0.0451
4 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0072 **
F-statistic: 2.21 on 4 and 27 DF, p-value: 0.095
5 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0073 **
F-statistic: 1.96 on 5 and 26 DF, p-value: 0.118
Observe cómo (a) la importancia de la primera variable apenas cambia, (a ') la primera variable sigue siendo significativa (p <.05) incluso cuando se ajusta para comparaciones múltiples ( por ejemplo , aplique Bonferroni multiplicando el valor p nominal por número de variables explicativas), (b) el coeficiente de la primera variable apenas cambia, pero (c) la importancia general crece exponencialmente, inflando rápidamente a un nivel no significativo.
Interpreto esto como una demostración de que incluir variables explicativas que son en gran medida independientes de la variable dependiente puede "enmascarar" el valor p general de la regresión. Cuando las nuevas variables son ortogonales a las existentes y a la variable dependiente, no cambiarán los valores p individuales. (Los pequeños cambios que se ven aquí se deben a que el error aleatorio agregado y
está, por accidente, ligeramente correlacionado con todas las demás variables). Una lección que se puede extraer de esto es que la parsimonia es valiosa : el uso de tan pocas variables como sea necesario puede fortalecer la importancia de Los resultados.
Estoy no diciendo que esto está sucediendo necesariamente para el conjunto de datos en la pregunta, de la que se ha revelado poco. Pero el conocimiento de que este efecto de enmascaramiento puede suceder debería informar nuestra interpretación de los resultados, así como nuestras estrategias para la selección de variables y la construcción de modelos.