¿La multicolinealidad es realmente un problema?

11

Estoy trabajando en algún proyecto de modelado predictivo en estos días: tratando de aprender un modelo y hacer predicciones en tiempo real basadas en el modelo que aprendí sin conexión.

Comencé a usar la regresión de cresta recientemente, porque leí que la regularización puede ayudar a reducir el efecto de la multicolinealidad.

Sin embargo, leí este blog hoy. Estoy totalmente confundido ahora. Según este blog, la multicolinealidad NO daña tanto el poder predictivo de un modelo.

Entonces, al final, ¿la multicolinealidad es un problema o no?

— usuario152503
fuente

2

es un problema en algunas configuraciones (por ejemplo, OLS), no un problema en otras configuraciones (por ejemplo, Árbol de decisiones o con regularización).

— Haitao Du

66

@ hxd1011, diría, no exactamente. Que es un problema si hacemos el modelado explicativo, pero algunas técnicas son mejores que otros para hacerle frente (OLS vs. cresta de regresión). No es un problema para la predicción, como señala Rob J. Hyndman en la publicación del blog citada.

— Richard Hardy

1

Es un problema mayor si sus predictores se miden con error. Con predictores perfectamente medidos (como variables categóricas sin problemas de medición) debería ser menos preocupante.

— kjetil b halvorsen

1

La micronumerosidad es el verdadero problema.

— The Laconic

13

Es un problema para la inferencia causal, o más bien, indica dificultades en la inferencia causal, pero no es un problema particular para la predicción / pronóstico (a menos que sea tan extremo que evite la convergencia del modelo o dé como resultado matrices singulares, y entonces no obtendrá predicciones de todos modos). Este, creo, es el significado de esa publicación de blog también. Parece que puede estar insistiendo en una respuesta de sí o no cuando la respuesta es que depende. Esto es de lo que depende, y por qué al menos se puede decir que la multicolinealidad (no perfecta) nunca es una razón para descartar una variable de un modelo; cualquier problema que la multicolinealidad indique no desaparecerá porque descartó una variable y se detuvo viendo la colinealidad.

Los predictores que están altamente correlacionados entre sí simplemente no hacen un buen trabajo para mejorar sus predicciones como lo harían si no fueran colineales, pero aún así se correlacionan por separado con la variable de resultado; ninguno de los dos está haciendo mucho más trabajo que el otro, y de todos modos lo haría solo. Tal vez están tan fuertemente relacionados entre sí porque están capturando básicamente la misma construcción subyacente, en cuyo caso ninguno está agregando mucho más por encima del otro por una buena razón, y sería imposible separarlos ontológicamente para fines predictivos. de todos modos, manipulando las unidades de observación para que tengan valores diferentes en cada una de las dos variables predictoras para que funcionen mejor como predictores. Pero eso no significa que incluirlos a ambos en su modelo tal cual es malo o incorrecto.

Cuando se trata de la inferencia causal, es un problema simplemente porque nos impide saber, al menos con confianza, cuál de los predictores colineales está haciendo la predicción y, por lo tanto, la explicación y, presumiblemente, la causa. Con suficientes observaciones, eventualmente podrá identificar los efectos separados de incluso variables altamente colineales (pero nunca perfectamente colineales). Es por eso que a Rob Franzese y UMich les gusta llamar a la multicolinealidad "micronumerosidad". Siempre hay cierta colinealidad entre los predictores. Esa es una de las razones por las que generalmente solo necesitamos muchas observaciones. A veces una cantidad imposible, para nuestras necesidades de inferencia causal. Pero el problema es la complejidad del mundo y las circunstancias desafortunadas que nos impiden observar una variedad más amplia de situaciones en las que diferentes factores varían más en relación entre sí. La multicolinealidad es el síntoma de esa falta de datos útiles, y la regresión multivariada es la cura (imperfecta). Sin embargo, muchas personas parecen pensar en la multicolinealidad como algo que están haciendo mal con su modelo, y como si fuera una razón para dudar de los hallazgos que tienen.

— ACS
fuente

8

No es un problema para el modelado predictivo cuando lo único que le importa es el pronóstico y nada más.

Considere este modelo simple:

y = β + β_{x} x + β_{z} z + ε

$y=\beta+\beta_xx+\beta_zz+\varepsilon$ Suponer que

z = α x

$z=\alpha x$

Tenemos regresores perfectamente colineales, y una solución OLS típica no existirá porque $(X^TX)^{-1}$ Tiene una singularidad.

Sin embargo, conectemos una ecuación a otra:

y = β + β_{x} x + β_{z} α x + ε = β + β_{2} x + ε,

$y=\beta+\beta_xx+\beta_z\alpha x+\varepsilon= \beta+\beta_2 x+\varepsilon,$ dónde

β_{2} \equiv β_{x} + β_{z} α

$\beta_2\equiv \beta_x+\beta_z\alpha$

Entonces, claramente, podemos estimar $\hat\beta_2$ por métodos OLS habituales, es decir, hay una solución. ¡El único problema es que no es único!

Podemos elegir cualquier $\hat\beta_z$ , lo que nos daría $\hat\beta_x=\beta_2-\alpha\hat\beta_x$ : tenemos un número infinito de pares $(\hat\beta_x,\hat\beta_z)$ que corresponden a una solución única $\hat\beta_2$ . Obviamente, cualquiera de estos pares es tan bueno como cualquier otro para predecir $\hat y$ . Además, todos estos pares son tan buenos como los únicos $\hat\beta_2$ coeficiente para el pronóstico .

El único problema es la inferencia. Si quieres saber como $x$ impactos $y$ su análisis típico de $\hat\beta_x$ coeficiente y su varianza será inútil.

— Aksakal
fuente

2

La multicolinealidad generalmente no es el mejor escenario para el análisis de regresión. Nuestra vida sería mucho más fácil si todos los predictores fueran ortogonales.

Es un problema para la interpretación del modelo (tratando de entender los datos):

La multicolinealidad afecta la varianza de los estimadores de coeficientes y, por lo tanto, la precisión de la estimación.
Por lo tanto, sería más difícil rechazar una hipótesis nula (debido a los errores estándar más altos). Tenemos un problema de error tipo II.
La adición o eliminación de unas pocas observaciones de muestra puede cambiar sustancialmente los coeficientes estimados.
Los signos del coeficiente estimado pueden ser opuestos a los esperados.

Imagínese si tiene que escribir un informe a su jefe sobre sus datos. Construye un modelo de multicolinealidad casi perfecto y le cuenta a su jefe sobre el modelo. Podrías decir " mi primer predictor se correlaciona positivamente con la respuesta ... Voy a decirte más por qué ... Tu jefe está contento, pero te pide que lo intentes nuevamente sin algunos puntos de datos. Tus coeficientes en tu nuevo modelo ahora es ... muy diferente , ¡el coeficiente de tu primer predictor ahora es negativo! ¡Tu jefe ya no confiará en ti! Tu modelo no es robusto.

La multicolinealidad sigue siendo un problema para el poder predictivo. Su modelo se sobreajustará y será menos probable que se generalice a datos fuera de la muestra. Afortunadamente, tu $R^2$ no se verá afectado y sus coeficientes seguirán siendo imparciales.

— Hola Mundo
fuente

0

Yo diría que si la correlación entre una variable y otra variable (o combinación lineal de variables) cambia entre los datos dentro y fuera de la muestra, puede comenzar a ver que la multicolinealidad afecta la precisión de la muestra fuera de la muestra. predicciones La multicolinealidad solo agrega otra suposición (correlación consistente) que debe cumplirse razonablemente para que su modelo siga funcionando bien.

— Chris
fuente

Buena respuesta (parcial). No creo que merezca votos negativos.

— Carpincho