El problema de la multicolinealidad está bien estudiado en la mayoría de los libros de texto econométricos. Además, hay un buen artículo en wikipedia que resume la mayoría de los problemas clave.
En la práctica, uno comienza a tener en cuenta el problema de la multicolinealidad si causa algunos signos visuales de inestabilidad de parámetros (la mayoría de ellos están implicados por la falta de inversión (pobre) de la matriz ):XTX
- grandes cambios en las estimaciones de parámetros mientras se realizan regresiones continuas o estimaciones en submuestras más pequeñas de los datos
- promediando las estimaciones de los parámetros, este último puede llegar a ser insignificante (por pruebas ) a pesar de que la prueba regresión basura muestra una alta significancia conjunta de los resultadostF
- La estadística VIF (valor promedio de las regresiones auxiliares) simplemente depende de sus requisitos para el nivel de tolerancia, la mayoría de las sugerencias prácticas establecen una tolerancia aceptable inferior a 0.2 o 0.1, lo que significa que los promedios correspondientes de las regresiones auxiliares deben ser superiores a 0.9 o 0.8 detectar el problema Por lo tanto, VIF debería ser mayor que los valores 10 y 5 de la regla general. En muestras pequeñas (menos de 50 puntos) 5 es preferible, en mayores puede ir a valores mayores. R2
- El índice de condición es una alternativa a VIF en su caso, ni VIF ni CI muestran que el problema se haya dejado, por lo que puede estar satisfecho estadísticamente con este resultado, pero ...
probablemente no teóricamente, ya que puede suceder (y generalmente es el caso) que necesite que todas las variables estén presentes en el modelo. Excluir variables relevantes (problema de variables omitidas) hará estimaciones de parámetros sesgadas e inconsistentes de todos modos. Por otro lado, puede verse obligado a incluir todas las variables de enfoque simplemente porque su análisis se basa en él. En el enfoque de minería de datos, aunque usted es más técnico en la búsqueda del mejor ajuste.
Así que tenga en cuenta las alternativas (que usaría yo mismo):
- obtener más puntos de datos (recuerde que los requisitos de VIF son más pequeños para un conjunto de datos más grande y las variables explicativas si varían lentamente, pueden cambiar para algunos puntos cruciales en el tiempo o en la sección transversal)
- buscar factores latentes a través de componentes principales (estos últimos son combinaciones ortogonales, por lo que no son multicolineales por la construcción, más aún involucran todas las variables explicativas)
- regresión de cresta (introduce un pequeño sesgo en las estimaciones de parámetros, pero las hace altamente estables)
Algunos otros trucos se encuentran en el artículo wiki mencionado anteriormente.