¿Hay alguna razón para preferir una medida específica de multicolinealidad?


22

Cuando trabajamos con muchas variables de entrada, a menudo nos preocupa la multicolinealidad . Existen varias medidas de multicolinealidad que se utilizan para detectar, pensar y / o comunicar multicolinealidad. Algunas recomendaciones comunes son:

  1. El múltiple Rj2 para una variable particular
  2. La tolerancia, 1Rj2 , para una variable particular
  3. El factor de inflación de varianza, , para una variable particular VIF=1tolerance
  4. El número de condición de la matriz de diseño en su conjunto:

    max (valor propio (X'X))min (valor propio (X'X))

(Hay algunas otras opciones discutidas en el artículo de Wikipedia, y aquí en SO en el contexto de R.)

El hecho de que los primeros tres sean una función perfecta el uno del otro sugiere que la única ventaja neta posible entre ellos sería psicológica. Por otro lado, los primeros tres le permiten examinar las variables individualmente, lo que podría ser una ventaja, pero he oído que el método del número de condición se considera el mejor.

  • ¿Es esto cierto? ¿Lo mejor para qué?
  • ¿Es el número de condición una función perfecta de Rj2 's? (Creo que lo sería)
  • ¿La gente encuentra que uno de ellos es más fácil de explicar? (Nunca he tratado de explicar estos números fuera de clase, solo doy una descripción suelta y cualitativa de multicolinealidad).

He publicado una pregunta de seguimiento relacionada, con respuestas que complementan lo que ya está aquí: stats.stackexchange.com/questions/173665/…
kyrenia

Respuestas:


15

A fines de la década de 1990, hice mi disertación sobre colinealidad.

Mi conclusión fue que los índices de condición eran los mejores.

La razón principal fue que, en lugar de mirar variables individuales , le permite mirar conjuntos de variables. Dado que la colinealidad es una función de conjuntos de variables, esto es algo bueno.

Además, los resultados de mi estudio de Monte Carlo mostraron una mejor sensibilidad a la colinealidad problemática, pero hace mucho tiempo que olvidé los detalles.

Por otro lado, es probablemente el más difícil de explicar. Mucha gente sabe quéR2es. Solo un pequeño subconjunto de esas personas ha oído hablar de valores propios. Sin embargo, cuando he usado índices de condición como herramienta de diagnóstico, nunca me han pedido una explicación.

Para mucho más sobre esto, consulte los libros de David Belsley. O, si realmente lo desea, puede obtener mi disertación Diagnóstico de multicolinealidad para regresión múltiple: un estudio de Monte Carlo


1
Entonces, ¿la idea aquí es que al mirar VIFs, podría concluir erróneamente que la multicolinealidad no es un problema, pero si hubiera mirado el número de condición, habría sido más probable que llegara a la conclusión correcta? ¿Quizás algo así como una prueba con mayor poder estadístico?
gung - Restablece a Monica

44
+1. Afortunadamente, para explicar el número de condición, ya tenemos un hilo sobresaliente en este sitio: es la distorsión máxima que se encuentra en la descripción de segundo orden de las variables de diseño como una nube de puntos. Cuanto mayor es la distorsión, más tienden a ubicarse los puntos dentro de un subespacio. Esta visión geométrica también muestra por qué el acondicionamiento de una matriz de diseño centrado es mejor que el de la matriz de diseño en bruto.
whuber

1
Bueno, es difícil definir exactamente cuál es la conclusión "correcta"; pero debería tener algo que ver con pequeños cambios en los datos que producen grandes cambios en la salida. Como recuerdo, los índices de condición estaban más directamente relacionados con esto. Pero lo más importante fue obtener las proporciones de varianza, que le permiten ver conjuntos de variables y el grado de su colinealidad. (Por supuesto, todo eso fue hace 14 años ... pero no creo que las cosas hayan cambiado. Las medidas son las mismas. Pero mi memoria puede no ser perfecta).
Peter Flom - Restablece a Monica

3
Gung, un punto clave aquí es que el número de condición es independiente de las coordenadas: permanece sin cambios bajo recombinaciones lineales (ortogonales) de los datos. Por lo tanto, no puede expresar nada sobre variables individuales, pero debe capturar una propiedad de toda la colección. Usarlo por lo tanto lo aísla parcialmente de ser engañado por cómo se expresan sus variables.
whuber

1
Todavía estoy demasiado abrumado para terminar tu disertación, pero ha sido realmente útil hasta ahora. Gracias de nuevo.
gung - Restablece a Monica
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.