Considerar la multicolinealidad es importante en el análisis de regresión porque, en extremo , depende directamente de si sus coeficientes se identifican de manera única en los datos. En casos menos severos, aún puede interferir con sus estimaciones de coeficientes; Pequeños cambios en los datos utilizados para la estimación pueden causar cambios bruscos en los coeficientes estimados. Estos pueden ser problemáticos desde un punto de vista inferencial: si dos variables están altamente correlacionadas, los aumentos en una pueden compensarse con disminuciones en otra, de modo que el efecto combinado es negarse entre sí. Con más de dos variables, el efecto puede ser aún más sutil, pero si las predicciones son estables, a menudo es suficiente para las aplicaciones de aprendizaje automático.
Considere por qué nos regularizamos en un contexto de regresión: necesitamos restringir el modelo para que sea demasiado flexible. La aplicación de la cantidad correcta de regularización aumentará ligeramente el sesgo para una mayor reducción de la varianza. El ejemplo clásico de esto es agregar términos polinómicos y efectos de interacción a una regresión: en el caso degenerado, la ecuación de predicción interpolará puntos de datos, pero probablemente sea terrible cuando intente predecir los valores de puntos de datos no vistos. Reducir esos coeficientes probablemente minimizará o eliminará por completo algunos de esos coeficientes y mejorará la generalización.
Sin embargo, se podría ver que un bosque aleatorio tiene un parámetro de regularización a través del número de variables muestreadas en cada división: se obtienen mejores divisiones cuanto mayor sea mtry
(más características para elegir; algunas de ellas son mejores que otras), pero eso también hace que cada árbol esté más altamente correlacionado entre sí, mitigando un poco el efecto diversificador de estimar múltiples árboles en primer lugar. Este dilema lo obliga a uno a encontrar el equilibrio correcto, generalmente logrado mediante la validación cruzada. Es importante destacar que, y en contraste con un análisis de regresión, ninguna parte del modelo de bosque aleatorio se ve perjudicada por variables altamente colineales: incluso si dos de las variables proporcionan la misma pureza de nodo secundario, puede elegir uno sin disminuir la calidad del resultado.
Del mismo modo, para algo como un SVM, puede incluir más predictores que características porque el truco del núcleo le permite operar únicamente en el producto interno de esos vectores de características. Tener más características que observaciones sería un problema en las regresiones, pero el truco del núcleo significa que solo estimamos un coeficiente para cada ejemplar, mientras que el parámetro de regularización reduce la flexibilidad de la solución, lo cual es definitivamente algo bueno, ya que estimar parámetros paraCNNlas observaciones sin restricciones siempre producirán un modelo perfecto en los datos de prueba, y cerramos el círculo, volviendo al escenario de regresión de cresta / LASSO / elasticidad neta donde tenemos la flexibilidad del modelo restringida como un control contra un modelo demasiado optimista. Una revisión de las condiciones KKT del problema SVM revela que la solución SVM es única, por lo que no tenemos que preocuparnos por los problemas de identificación que surgieron en el caso de regresión.
Finalmente, considere el impacto real de la multicolinealidad. No cambia el poder predictivo del modelo (al menos, en los datos de entrenamiento) pero sí con nuestras estimaciones de coeficientes. En la mayoría de las aplicaciones de LD, que no se preocupan por los coeficientes propios, solo la pérdida de nuestras predicciones del modelo, por lo que, en ese sentido, verificar VIF en realidad no responde una pregunta consecuente. (Pero si un ligero cambio en los datos causa una gran fluctuación en los coeficientes [un síntoma clásico de multicolinealidad], también puede cambiar las predicciones, en cuyo caso nos importa, pero todo esto [¡esperamos!] Se caracteriza cuando realice una validación cruzada, que de todos modos forma parte del proceso de modelado). Una regresión se interpreta más fácilmente, pero la interpretación podría no ser el objetivo más importante para algunas tareas.