¿Por qué no se verifica la multicolinealidad en las estadísticas modernas / aprendizaje automático?


44

En las estadísticas tradicionales, al construir un modelo, verificamos la multicolinealidad utilizando métodos como las estimaciones del factor de inflación de varianza (VIF), pero en el aprendizaje automático, en su lugar, utilizamos la regularización para la selección de características y no parecemos verificar si las características están correlacionadas en absoluto. ¿Por qué hacemos eso?

Respuestas:


51

Considerar la multicolinealidad es importante en el análisis de regresión porque, en extremo , depende directamente de si sus coeficientes se identifican de manera única en los datos. En casos menos severos, aún puede interferir con sus estimaciones de coeficientes; Pequeños cambios en los datos utilizados para la estimación pueden causar cambios bruscos en los coeficientes estimados. Estos pueden ser problemáticos desde un punto de vista inferencial: si dos variables están altamente correlacionadas, los aumentos en una pueden compensarse con disminuciones en otra, de modo que el efecto combinado es negarse entre sí. Con más de dos variables, el efecto puede ser aún más sutil, pero si las predicciones son estables, a menudo es suficiente para las aplicaciones de aprendizaje automático.

Considere por qué nos regularizamos en un contexto de regresión: necesitamos restringir el modelo para que sea demasiado flexible. La aplicación de la cantidad correcta de regularización aumentará ligeramente el sesgo para una mayor reducción de la varianza. El ejemplo clásico de esto es agregar términos polinómicos y efectos de interacción a una regresión: en el caso degenerado, la ecuación de predicción interpolará puntos de datos, pero probablemente sea terrible cuando intente predecir los valores de puntos de datos no vistos. Reducir esos coeficientes probablemente minimizará o eliminará por completo algunos de esos coeficientes y mejorará la generalización.

Sin embargo, se podría ver que un bosque aleatorio tiene un parámetro de regularización a través del número de variables muestreadas en cada división: se obtienen mejores divisiones cuanto mayor sea mtry(más características para elegir; algunas de ellas son mejores que otras), pero eso también hace que cada árbol esté más altamente correlacionado entre sí, mitigando un poco el efecto diversificador de estimar múltiples árboles en primer lugar. Este dilema lo obliga a uno a encontrar el equilibrio correcto, generalmente logrado mediante la validación cruzada. Es importante destacar que, y en contraste con un análisis de regresión, ninguna parte del modelo de bosque aleatorio se ve perjudicada por variables altamente colineales: incluso si dos de las variables proporcionan la misma pureza de nodo secundario, puede elegir uno sin disminuir la calidad del resultado.

Del mismo modo, para algo como un SVM, puede incluir más predictores que características porque el truco del núcleo le permite operar únicamente en el producto interno de esos vectores de características. Tener más características que observaciones sería un problema en las regresiones, pero el truco del núcleo significa que solo estimamos un coeficiente para cada ejemplar, mientras que el parámetro de regularización reduce la flexibilidad de la solución, lo cual es definitivamente algo bueno, ya que estimar parámetros paraCNNlas observaciones sin restricciones siempre producirán un modelo perfecto en los datos de prueba, y cerramos el círculo, volviendo al escenario de regresión de cresta / LASSO / elasticidad neta donde tenemos la flexibilidad del modelo restringida como un control contra un modelo demasiado optimista. Una revisión de las condiciones KKT del problema SVM revela que la solución SVM es única, por lo que no tenemos que preocuparnos por los problemas de identificación que surgieron en el caso de regresión.

Finalmente, considere el impacto real de la multicolinealidad. No cambia el poder predictivo del modelo (al menos, en los datos de entrenamiento) pero sí con nuestras estimaciones de coeficientes. En la mayoría de las aplicaciones de LD, que no se preocupan por los coeficientes propios, solo la pérdida de nuestras predicciones del modelo, por lo que, en ese sentido, verificar VIF en realidad no responde una pregunta consecuente. (Pero si un ligero cambio en los datos causa una gran fluctuación en los coeficientes [un síntoma clásico de multicolinealidad], también puede cambiar las predicciones, en cuyo caso nos importa, pero todo esto [¡esperamos!] Se caracteriza cuando realice una validación cruzada, que de todos modos forma parte del proceso de modelado). Una regresión se interpreta más fácilmente, pero la interpretación podría no ser el objetivo más importante para algunas tareas.


1
Para el modelado de regresión causal, utilizando técnicas como el puntaje de propensión o el ajuste de regresión, la colinealidad puede ser un problema incluso para la predicción, porque generalmente el objetivo es ajustar un modelo exclusivamente en un grupo control / no expuesto y luego estimar los resultados usando ese modelo en un experimento grupo, o bien combine los dos grupos pero use una variable indicadora para medir el efecto, controlando por otros factores, de estar en el grupo experimental.
ely

1
Si la colinealidad crea errores en los coeficientes, entonces la regresión extendida al grupo experimental no funcionará. Del mismo modo, la estimación del coeficiente para la variable indicadora de haber recibido tratamiento podría descartarse si se realiza una regresión única en ambas submuestras. Las técnicas modernas de aprendizaje automático generalmente no se usan para analizar este tipo de problemas de causalidad, por lo que nadie ha tenido que enfrentar la necesidad de herramientas para explicarlo.
ely

@ely, en su primer ejemplo, la colinealidad (entre las covariables, no el tratamiento) no causa un problema, porque nuevamente el objetivo es la predicción de los resultados contrafácticos, y la colinearidad no es un problema con la predicción. Además, los métodos modernos de ML se usan con frecuencia en inferencia causal; El modelado generalizado y los bosques aleatorios se utilizan ampliamente para estimar los puntajes de propensión, y TMLE utiliza métodos de NM para imputar los resultados contrafácticos. Yo diría que una fortaleza de los métodos causales es que la colinealidad no suele ser un problema para ellos.
Noah

@Noah Por lo general, lo que importa es la interpretación del coeficiente de exposición (y la interpretación de las otras estimaciones de efectos también), y no solo la precisión bruta de la predicción. Me doy cuenta de que mi comentario no dejó esto claro, pero es por eso que es un problema. Si la predicción general es buena, pero no está impulsada por estar realmente relacionada con el coeficiente estimado para la exposición, generalmente es un modelo indeseable para la inferencia causal.
ely

21

La razón es porque los objetivos de las "estadísticas tradicionales" son diferentes de muchas técnicas de Machine Learning.

Por "estadísticas tradicionales", supongo que se refiere a la regresión y sus variantes. En la regresión, estamos tratando de entender el impacto que tienen las variables independientes en la variable dependiente. Si existe una fuerte multicolinealidad, esto simplemente no es posible. Ningún algoritmo va a arreglar esto. Si el estudio se correlaciona con la asistencia a clase y las calificaciones, no podemos saber qué es lo que realmente está haciendo que las calificaciones suban: asistencia o estudios.

Sin embargo, en las técnicas de Machine Learning que se centran en la precisión predictiva, lo único que nos importa es cómo podemos usar un conjunto de variables para predecir otro conjunto. No nos importa el impacto que estas variables tienen entre sí.

Básicamente, el hecho de que no verifiquemos la multicolinealidad en las técnicas de Machine Learning no es una consecuencia del algoritmo, es una consecuencia del objetivo. Puede ver esto al notar que una fuerte colinealidad entre las variables no perjudica la precisión predictiva de los métodos de regresión.


11

Aquí parece haber una suposición subyacente de que no verificar la colinealidad es una práctica razonable o incluso la mejor. Esto parece defectuoso. Por ejemplo, la comprobación de la colinealidad perfecta en un conjunto de datos con muchos predictores revelará si dos variables son realmente lo mismo, por ejemplo, fecha de nacimiento y edad (ejemplo tomado de Dormann et al. (2013), Ecography , 36 , 1, pp 27–46 ) A veces también he visto surgir el problema de predictores perfectamente correlacionados en las competiciones de Kaggle, donde los competidores en el foro intentan eliminar posibles predictores que han sido anonimizados (es decir, la etiqueta del predictor está oculta, un problema común en las competencias de Kaggle y similares a Kaggle).

También hay una actividad en el aprendizaje automático de seleccionar predictores: la identificación de predictores altamente correlacionados puede permitirle al trabajador encontrar predictores que sean representantes de otra variable subyacente (oculta) y finalmente encontrar una variable que haga el mejor trabajo de representar la variable latente o Alternativamente, sugiera variables que pueden combinarse (por ejemplo, a través de PCA).

Por lo tanto, sugeriría que, aunque los métodos de aprendizaje automático generalmente (o al menos a menudo) han sido diseñados para ser robustos frente a predictores correlacionados, comprender el grado en que los predictores están correlacionados es a menudo un paso útil para producir un modelo robusto y preciso , y es una ayuda útil para obtener un modelo optimizado.


9

El problema principal con la multicolinealidad es que desordena los coeficientes (betas) de las variables independientes. Es por eso que es un problema grave cuando se estudian las relaciones entre variables, se establece la causalidad, etc.

Sin embargo, si no está interesado en comprender tanto el fenómeno, sino que se centra exclusivamente en la predicción y el pronóstico, entonces la multicolinealidad es un problema menor. O al menos eso es lo que la gente piensa al respecto.

No estoy hablando de multicolinealidad perfecta aquí, que es un problema técnico o de identificación. Técnicamente, simplemente significa que la matriz de diseño conduce a la singularidad, y la solución no está definida.


44
Incluso con una colinealidad perfecta, las predicciones están bien definidas.
whuber

@whuber, si usa OLS, es probable que el paquete de estadísticas arroje un error, ya que no podrá invertir la matriz. Los inteligentes pueden soltar uno de los vars independientes y seguir adelante.
Aksakal

2
Si usa inversa generalizada, entonces esta singularidad no es un problema.
Analista

1
No sigo tu lógica, Aksakal: ¿estás tratando de sugerir que las técnicas de aprendizaje automático difieren de las técnicas estadísticas en que las primeras no tienen problemas con las matrices de rango reducido? Es una idea interesante para explorar.
whuber

1
@user, la variable independiente casi siempre está correlacionada, y está bien, por lo general. Solo la multicolinealidad perfecta causa deficiencia de rango. La multicolinealidad se refiere a correlaciones muy fuertes, y no es deseable, en general, pero como escribí anteriormente, es un problema benigno en muchos casos.
Aksakal

7

La regularización en esos aprendizaje automático estabiliza los coeficientes de regresión, por lo que al menos ese efecto de multicolinealidad domesticado. Pero lo que es más importante, si busca predicciones (que suelen ser los aprendices de máquinas), entonces el "problema" de multicolinealidad no era un problema tan grande en primer lugar. Es un problema cuando necesita estimar un coeficiente particular y no tiene la información.

Además, mi respuesta a " Cuándo selecciona LASSO los predictores correlacionados " podría serle útil.


1

Creo que la multicolinealidad debería verificarse en el aprendizaje automático. Este es el motivo: suponga que tiene dos características altamente correlacionadas X e Y en nuestro conjunto de datos. Esto significa que el plano de respuesta no es confiable (un pequeño cambio en los datos puede tener efectos drásticos en la orientación del plano de respuesta). Lo que implica que las predicciones del modelo para datos apuntan muy lejosdesde la línea, donde X e Y tienden a caer, no son confiables. Si usa su modelo para predicciones para tales puntos, las predicciones probablemente serán muy malas. En otras palabras, cuando tiene dos características altamente correlacionadas, como modelo, está aprendiendo un plano donde los datos en su mayoría se encuentran en una línea. Por lo tanto, es importante eliminar características altamente correlacionadas de sus datos para evitar modelos poco confiables y predicciones erróneas.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.