En el aprendizaje supervisado, ¿por qué es malo tener características correlacionadas?

35

Leí en alguna parte que si tenemos características que están demasiado correlacionadas, tenemos que eliminar una, ya que esto puede empeorar el modelo. Está claro que las características correlacionadas significan que traen la misma información, por lo que es lógico eliminar una de ellas. Pero no puedo entender por qué esto puede empeorar el modelo.

machine-learning correlation

— Araña
fuente

3

Esta regla se aplica más fuertemente en algunos modelos y análisis que en otros. Cualquier posibilidad de que pudieras agregar algo de contexto a "Leí en alguna parte", por ejemplo, ¿estaba relacionado con la capacitación de un modelo específico?

— Neil Slater

3

Las características correlacionadas no necesariamente empeorarán un modelo. Eliminar características correlacionadas ayuda a inferir el significado de las características.

— Hobbes

31

Las características correlacionadas en general no mejoran los modelos (aunque depende de los detalles del problema, como el número de variables y el grado de correlación), pero afectan a modelos específicos de diferentes maneras y en diferentes grados:

Para los modelos lineales (p. Ej., Regresión lineal o regresión logística), la multicolinealidad puede generar soluciones que varían enormemente y posiblemente sean numéricamente inestables .
Los bosques aleatorios pueden ser buenos para detectar interacciones entre diferentes características, pero las características altamente correlacionadas pueden enmascarar estas interacciones.

En términos más generales, esto puede verse como un caso especial de la navaja de afeitar de Occam . Es preferible un modelo más simple y, en cierto sentido, un modelo con menos características es más simple. El concepto de longitud mínima de descripción lo hace más preciso.

— Ami Tavory
fuente

44

Dejando de lado la estabilidad numérica, la predicción dada por el modelo OLS no debería verse afectada por la multicolinealidad, ya que el efecto general de las variables predictoras no se ve afectado por la presencia de multicolinealidad. Es la interpretación del efecto de variables predictoras individuales que no son confiables cuando está presente la multicolinealidad.

— Akavall

11

(Suponiendo que está hablando de aprendizaje supervisado)

Las funciones correlacionadas no siempre empeorarán su modelo, pero tampoco lo mejorarán siempre.

Hay tres razones principales por las que eliminaría las funciones correlacionadas:

Haz el algoritmo de aprendizaje más rápido

Debido a la maldición de la dimensionalidad, menos características generalmente significan una gran mejora en términos de velocidad.

Si la velocidad no es un problema, quizás no elimine estas características de inmediato (vea el siguiente punto)

Disminuir el sesgo perjudicial

La palabra clave es perjudicial. Si tiene características correlacionadas pero también están correlacionadas con el objetivo, desea conservarlas. Puede ver las características como sugerencias para hacer una buena suposición, si tiene dos sugerencias que son esencialmente las mismas, pero son buenas sugerencias, puede ser conveniente mantenerlas.

Algunos algoritmos como Naive Bayes en realidad se benefician directamente de características correlacionadas "positivas". Y otros como el bosque aleatorio pueden beneficiarse indirectamente de ellos.

Imagine tener 3 características A, B y C. A y B están altamente correlacionadas con el objetivo y entre sí, y C no está en absoluto. Si toma una muestra de las 3 características, tiene 2/3 de posibilidades de obtener una "buena" característica, mientras que si elimina B, por ejemplo, esta posibilidad cae a 1/2

Por supuesto, si las características que están correlacionadas no son súper informativas en primer lugar, el algoritmo puede no sufrir mucho.

Por lo tanto, es moral de la historia, eliminar estas características puede ser necesario debido a la velocidad, pero recuerde que puede empeorar su algoritmo en el proceso. Además, algunos algoritmos como los árboles de decisión tienen una selección de características incrustada en ellos.

Una buena manera de lidiar con esto es usar un método de envoltura para la selección de funciones. Eliminará las funciones redundantes solo si no contribuyen directamente al rendimiento. Si son útiles como en ingenuos bayes, se conservarán. (Aunque recuerde que los métodos de envoltura son caros y pueden llevar a un sobreajuste)

Interpretabilidad de su modelo

Si su modelo necesita ser interpretable, puede verse obligado a simplificarlo. Asegúrese de recordar también la navaja de afeitar de Occam. Si su modelo no es "mucho" peor con menos funciones, entonces probablemente debería usar menos funciones.

— Valentin Calomme
fuente

2

A veces, las características correlacionadas, y la duplicación de la información que proporciona, no perjudica a un sistema predictivo. Considere un conjunto de árboles de decisión, cada uno de los cuales considera una muestra de filas y una muestra de columnas. Si dos columnas están altamente correlacionadas, existe la posibilidad de que una de ellas no se seleccione en la muestra de columna de un árbol en particular, y ese árbol dependerá de la columna restante. Las características correlacionadas significan que puede reducir el sobreajuste (a través del muestreo de columna) sin renunciar a demasiada calidad predictiva.

— Dan Jarratt
fuente

2

Se debe tomar una decisión sobre las variables mínimas necesarias para hacerlo. Esta es, como se mencionó anteriormente, la formalización de la maquinilla de afeitar de Occam con una longitud mínima de descripción anterior. Me gusta ese.

Tendería a caracterizar este fenómeno en algo así como un HDDT para significar el árbol más eficiente que no toma decisiones espurias basadas en los datos disponibles, y evita todas las instancias de decisiones que de otro modo podrían haberse tomado en múltiples puntos de datos sin entender que estaban correlacionadas .

— tjborromeo
fuente

Con respecto a datascience.stackexchange.com/users/38887/valentin-calomme comentario: "Las funciones correlacionadas no siempre empeorarán su modelo, pero tampoco siempre lo mejorarán". No veo o no puedo pensar dónde tener una alta correlación entre las variables no empeora su modelo. Al menos en el sentido de que, dada la opción: prefiero entrenar una red con características menos correlacionadas. Cualquier otra cosa que no sea funcional y probablemente peor. ¿Hay casos en que esto no es cierto?

— tjborromeo

1

En la perspectiva del almacenamiento de datos en bases de datos, el almacenamiento de características correlacionadas es de alguna manera similar al almacenamiento de información redundante, lo que puede causar el desperdicio de almacenamiento y también puede causar datos inconsistentes después de actualizar o editar tuplas.

Si agregamos tantas características correlacionadas al modelo, podemos hacer que el modelo considere características innecesarias y podemos tener problemas de alta dimensionalidad , creo que esta es la razón para empeorar el modelo construido.

En el contexto del aprendizaje automático, usualmente usamos PCApara reducir la dimensión de los patrones de entrada. Este enfoque considera la eliminación de características correlacionadas de alguna manera (usando SVD) y es un enfoque no supervisado. Esto se hace para lograr los siguientes propósitos:

Aunque esto puede no parecer correcto, he visto personas que usan la eliminación de características correlacionadas para evitar el sobreajuste, pero no creo que sea una buena práctica. Para obtener más información, le recomiendo que vea aquí .

Otra razón es que en los modelos de aprendizaje profundo, como MLPssi agrega funciones correlacionadas, simplemente agrega información innecesaria que agrega más cálculos y parámetros al modelo.

— Medios de comunicación
fuente

0

La respuesta a esta pregunta depende en gran medida del propósito del modelo. En inferencia, las características altamente correlacionadas son un problema bien conocido. Por ejemplo, dos características altamente correlacionadas entre sí y con y, ambas podrían resultar insignificantes en un modelo de inferencia, y potencialmente podrían perder una señal explicativa importante. Por lo tanto, en conclusión, generalmente se recomienda diluirlos.

Si su aprendizaje supervisado es para la predicción, la respuesta, en contra de la sabiduría convencional, suele ser la opuesta. La única razón para eliminar características altamente correlacionadas son las preocupaciones de almacenamiento y velocidad. Aparte de eso, lo importante sobre las características es si contribuyen a la predicción y si la calidad de sus datos es suficiente.

Las características dominadas por el ruido tenderán a estar menos correlacionadas con otras características, que las características correlacionadas con y. Por lo tanto, como se mencionó anteriormente en el ejemplo de Valentin, el adelgazamiento de este último aumentará la proporción del primero.

En particular, los métodos como bosques aleatorios y KNN tratan todas las características por igual, por lo que la reducción de las características correlacionadas reduce directamente su relación señal / ruido.

Los métodos que seleccionan automáticamente características como árboles individuales, lazo "puro" o redes neuronales pueden verse menos afectados. Pero incluso entonces, aparte de un mayor tiempo de computación, rara vez hay algo que perder en cuanto a predicciones al mantener las funciones correlacionadas en la mezcla.

— Assaf
fuente