Se necesita muy poca correlación entre las variables independientes para causar esto.
Para ver por qué, intente lo siguiente:
Dibuje 50 conjuntos de diez vectores con coeficientes en estándar normal.(x1,x2,…,x10)
Calcule para . Esto hace que estándar individualmente normal pero con algunas correlaciones entre ellos.yi=(xi+xi+1)/2–√i=1,2,…,9yi
Calcule . Tenga en cuenta que .w=x1+x2+⋯+x10w=2–√(y1+y3+y5+y7+y9)
Agregue algún error independiente distribuido normalmente a . Con un poco de experimentación descubrí que con funciona bastante bien. Por lo tanto, es la suma de más algún error. También es la suma de algunos de los más el mismo error.wz=w+εε∼N(0,6)zxiyi
Consideraremos que son las variables independientes y la variable dependiente.yiz
Aquí hay una matriz de diagrama de dispersión de uno de esos conjuntos de datos, con largo de la parte superior e izquierda y el en orden.zyi
Las correlaciones esperadas entre y son cuando y caso contrario. Las correlaciones realizadas varían hasta el 62%. Aparecen como diagramas de dispersión más ajustados al lado de la diagonal.yiyj1/2|i−j|=10
Mire la regresión de contra el :zyi
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 9, 40) = 4.57
Model | 1684.15999 9 187.128887 Prob > F = 0.0003
Residual | 1636.70545 40 40.9176363 R-squared = 0.5071
-------------+------------------------------ Adj R-squared = 0.3963
Total | 3320.86544 49 67.7727641 Root MSE = 6.3967
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.184007 1.264074 1.73 0.092 -.3707815 4.738795
y2 | 1.537829 1.809436 0.85 0.400 -2.119178 5.194837
y3 | 2.621185 2.140416 1.22 0.228 -1.704757 6.947127
y4 | .6024704 2.176045 0.28 0.783 -3.795481 5.000421
y5 | 1.692758 2.196725 0.77 0.445 -2.746989 6.132506
y6 | .0290429 2.094395 0.01 0.989 -4.203888 4.261974
y7 | .7794273 2.197227 0.35 0.725 -3.661333 5.220188
y8 | -2.485206 2.19327 -1.13 0.264 -6.91797 1.947558
y9 | 1.844671 1.744538 1.06 0.297 -1.681172 5.370514
_cons | .8498024 .9613522 0.88 0.382 -1.093163 2.792768
------------------------------------------------------------------------------
El estadístico F es altamente significativo, pero ninguna de las variables independientes lo es, incluso sin ningún ajuste para las 9.
Para ver lo que está sucediendo, considere la regresión de solo contra el número impar :zyi
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 5, 44) = 7.77
Model | 1556.88498 5 311.376997 Prob > F = 0.0000
Residual | 1763.98046 44 40.0904649 R-squared = 0.4688
-------------+------------------------------ Adj R-squared = 0.4085
Total | 3320.86544 49 67.7727641 Root MSE = 6.3317
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.943948 .8138525 3.62 0.001 1.303736 4.58416
y3 | 3.403871 1.080173 3.15 0.003 1.226925 5.580818
y5 | 2.458887 .955118 2.57 0.013 .533973 4.383801
y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501
y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112
_cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034
------------------------------------------------------------------------------
Algunas de estas variables son altamente significativas, incluso con un ajuste de Bonferroni. (Hay mucho más que decir al observar estos resultados, pero nos alejaría del punto principal).
La intuición detrás de esto es que depende principalmente de un subconjunto de las variables (pero no necesariamente de un subconjunto único). El complemento de este subconjunto ( ) esencialmente no agrega información sobre debido a las correlaciones, aunque sean leves, con el subconjunto mismo.y 2 , y 4 , y 6 , y 8 zzy2,y4,y6,y8z
Este tipo de situación surgirá en el análisis de series de tiempo . Podemos considerar los subíndices como tiempos. La construcción de ha inducido una correlación serial de corto alcance entre ellos, al igual que muchas series de tiempo. Debido a esto, perdemos poca información al submuestrear la serie a intervalos regulares.yi
Una conclusión que podemos extraer de esto es que cuando se incluyen demasiadas variables en un modelo, pueden enmascarar las verdaderamente significativas. El primer signo de esto es la estadística F global altamente significativa acompañada de pruebas t no tan significativas para los coeficientes individuales. (Incluso cuando algunas de las variables son significativas individualmente, esto no significa automáticamente que las otras no lo son. Ese es uno de los defectos básicos de las estrategias de regresión gradual: son víctimas de este problema de enmascaramiento). Por cierto, los factores de variación de la inflaciónen el primer rango de regresión de 2.55 a 6.09 con una media de 4.79: justo en el límite de diagnosticar alguna multicolinealidad de acuerdo con las reglas generales más conservadoras; muy por debajo del umbral de acuerdo con otras reglas (donde 10 es un límite superior).