VIF, índice de condición y valores propios

15

Actualmente estoy evaluando la multicolinealidad en mis conjuntos de datos.

¿Qué valores de umbral de VIF e índice de condición por debajo / arriba sugieren un problema?

VIF: He escuchado que VIF es un problema. $\geq 10$

Después de eliminar dos variables problemáticas, VIF es para cada variable. ¿Las variables necesitan más tratamiento o este VIF parece estar bien? $\leq 3.96$

Índice de condición: he oído que un índice de condición (CI) de 30 o más es un problema. Mi CI más alto es 16.66. ¿Es esto un problema?

Otros asuntos:

¿Hay otros dos / donts que deben considerarse?
¿Hay alguna otra cosa que deba tener en cuenta?

— ayush biyani
fuente

1

Por favor aclare la pregunta. En particular, estos fueron algunos comentarios de antes: Por @chl - "debe considerar escribir preguntas claras (son interesantes por sí mismas), con un tema definitivo, y reservar comentarios para información adicional relevante a su pregunta original, no seguir- arriba". Por @shane - "Con respecto a esta pregunta actual: también podría mejorarse porque se hacen muchas preguntas diferentes sin un hilo común claro. ¿Está interesado en la multicolinealidad en general? ¿O está interesado en VIF? Sería mejor dividirlas para mayor claridad."

5

El problema de la multicolinealidad está bien estudiado en la mayoría de los libros de texto econométricos. Además, hay un buen artículo en wikipedia que resume la mayoría de los problemas clave.

En la práctica, uno comienza a tener en cuenta el problema de la multicolinealidad si causa algunos signos visuales de inestabilidad de parámetros (la mayoría de ellos están implicados por la falta de inversión (pobre) de la matriz ): $X^TX$

grandes cambios en las estimaciones de parámetros mientras se realizan regresiones continuas o estimaciones en submuestras más pequeñas de los datos
promediando las estimaciones de los parámetros, este último puede llegar a ser insignificante (por pruebas ) a pesar de que la prueba regresión basura muestra una alta significancia conjunta de los resultados $t$ $F$
La estadística VIF (valor promedio de las regresiones auxiliares) simplemente depende de sus requisitos para el nivel de tolerancia, la mayoría de las sugerencias prácticas establecen una tolerancia aceptable inferior a 0.2 o 0.1, lo que significa que los promedios correspondientes de las regresiones auxiliares deben ser superiores a 0.9 o 0.8 detectar el problema Por lo tanto, VIF debería ser mayor que los valores 10 y 5 de la regla general. En muestras pequeñas (menos de 50 puntos) 5 es preferible, en mayores puede ir a valores mayores. $R^2$
El índice de condición es una alternativa a VIF en su caso, ni VIF ni CI muestran que el problema se haya dejado, por lo que puede estar satisfecho estadísticamente con este resultado, pero ...

probablemente no teóricamente, ya que puede suceder (y generalmente es el caso) que necesite que todas las variables estén presentes en el modelo. Excluir variables relevantes (problema de variables omitidas) hará estimaciones de parámetros sesgadas e inconsistentes de todos modos. Por otro lado, puede verse obligado a incluir todas las variables de enfoque simplemente porque su análisis se basa en él. En el enfoque de minería de datos, aunque usted es más técnico en la búsqueda del mejor ajuste.

Así que tenga en cuenta las alternativas (que usaría yo mismo):

obtener más puntos de datos (recuerde que los requisitos de VIF son más pequeños para un conjunto de datos más grande y las variables explicativas si varían lentamente, pueden cambiar para algunos puntos cruciales en el tiempo o en la sección transversal)
buscar factores latentes a través de componentes principales (estos últimos son combinaciones ortogonales, por lo que no son multicolineales por la construcción, más aún involucran todas las variables explicativas)
regresión de cresta (introduce un pequeño sesgo en las estimaciones de parámetros, pero las hace altamente estables)

Algunos otros trucos se encuentran en el artículo wiki mencionado anteriormente.

— Dmitrij Celov
fuente

3

Creo que Belsely dijo que la CI de más de 10 es indicativa de un posible problema moderado, mientras que más de 30 es más grave.

Además, sin embargo, debe observar la varianza compartida por conjuntos de variables en los índices de condición alta. Existe un debate (o la última vez que leí esta literatura) sobre si la colinealidad que involucraba una variable y la intercepción era problemática o no, y si centrar la variable ofensiva eliminaba el problema o simplemente lo trasladaba a otro lado.

— Peter Flom - Restablece a Monica
fuente