Cuándo eliminar variables correlacionadas

11

¿Alguien puede sugerir cuál es la etapa correcta para eliminar las variables correlacionadas antes de la ingeniería de características o después de la ingeniería de características?

machine-learning feature-selection data-science-model

— bp89
fuente

8

No desea eliminar todas las variables correlacionadas. Solo cuando la correlación es tan fuerte que no transmiten información adicional. Esto es tanto una función de la fuerza de la correlación, la cantidad de datos que tiene y si alguna pequeña diferencia entre las variables correlacionadas le dice algo sobre el resultado, después de todo.

Los dos primeros que puede ver antes de hacer cualquier modelo, el último no. Por lo tanto, puede ser muy razonable eliminar las variables en función de la combinación de las dos primeras consideraciones (es decir, incluso si las variables adicionales pueden, en principio, contener alguna información útil, no podría saber dada la fuerza de la correlación y la cantidad de datos tienes) antes de hacer cualquier modelado / ingeniería de características. El punto final en realidad solo se puede evaluar después de hacer algunos modelos.

— Björn
fuente

2

Extraño que nadie más haya mencionado la interpretabilidad .

Si todo lo que le preocupa es el rendimiento , entonces no tiene sentido eliminar dos variables correlacionadas, a menos que correlación = 1 o -1, en cuyo caso una de las variables es redundante.

Pero si le preocupa la interpretabilidad, entonces podría tener sentido eliminar una de las variables, incluso si la correlación es leve. Esto es particularmente cierto para los modelos lineales. Uno de los supuestos de la regresión lineal es la falta de multicolinealidad perfecta en los predictores.

Si A está correlacionado con B, entonces no puede interpretar los coeficientes ni de A ni de B. Para ver por qué, imagine el caso extremo cuando A = B (correlación perfecta). Entonces, el modelo y = 100 * A + 50 * B es el mismo que el modelo y = 5 * A + 10 * B o y = -2000 * A + 4000 * B. Existen múltiples equilibrios en las posibles soluciones para el problema de minimización de mínimos cuadrados, por lo tanto, tampoco puede "confiar".

Cosas similares pueden suceder con otros modelos. Por ejemplo, si A está muy correlacionado con B, entonces si el árbol de decisión elige A el doble de veces que B, entonces no puede decir que A es más importante que B. Si vuelve a entrenar el modelo, podría haber sucedido lo contrario.

— Ricardo Cruz
fuente

2

Debería considerar verificar VIF (Factor de inflación de varianza). Intente eliminar funciones con mayor VIF. En general, se prefiere que VIF sea inferior a 10.

— Siddhi Kiran Bajracharya
fuente

Esto es bastante similar a mi respuesta en datascience.stackexchange.com/questions/36634/…

— Siddhi Kiran Bajracharya

1

No importa. Pero por eficiencia antes de la ingeniería de características.

— Mohit Motwani
fuente

1

Determine la covarianza y haga su trabajo inicial con el conjunto más alto.

— Richard Careaga
fuente