(Suponiendo que está hablando de aprendizaje supervisado)
Las funciones correlacionadas no siempre empeorarán su modelo, pero tampoco lo mejorarán siempre.
Hay tres razones principales por las que eliminaría las funciones correlacionadas:
- Haz el algoritmo de aprendizaje más rápido
Debido a la maldición de la dimensionalidad, menos características generalmente significan una gran mejora en términos de velocidad.
Si la velocidad no es un problema, quizás no elimine estas características de inmediato (vea el siguiente punto)
- Disminuir el sesgo perjudicial
La palabra clave es perjudicial. Si tiene características correlacionadas pero también están correlacionadas con el objetivo, desea conservarlas. Puede ver las características como sugerencias para hacer una buena suposición, si tiene dos sugerencias que son esencialmente las mismas, pero son buenas sugerencias, puede ser conveniente mantenerlas.
Algunos algoritmos como Naive Bayes en realidad se benefician directamente de características correlacionadas "positivas". Y otros como el bosque aleatorio pueden beneficiarse indirectamente de ellos.
Imagine tener 3 características A, B y C. A y B están altamente correlacionadas con el objetivo y entre sí, y C no está en absoluto. Si toma una muestra de las 3 características, tiene 2/3 de posibilidades de obtener una "buena" característica, mientras que si elimina B, por ejemplo, esta posibilidad cae a 1/2
Por supuesto, si las características que están correlacionadas no son súper informativas en primer lugar, el algoritmo puede no sufrir mucho.
Por lo tanto, es moral de la historia, eliminar estas características puede ser necesario debido a la velocidad, pero recuerde que puede empeorar su algoritmo en el proceso. Además, algunos algoritmos como los árboles de decisión tienen una selección de características incrustada en ellos.
Una buena manera de lidiar con esto es usar un método de envoltura para la selección de funciones. Eliminará las funciones redundantes solo si no contribuyen directamente al rendimiento. Si son útiles como en ingenuos bayes, se conservarán. (Aunque recuerde que los métodos de envoltura son caros y pueden llevar a un sobreajuste)
- Interpretabilidad de su modelo
Si su modelo necesita ser interpretable, puede verse obligado a simplificarlo. Asegúrese de recordar también la navaja de afeitar de Occam. Si su modelo no es "mucho" peor con menos funciones, entonces probablemente debería usar menos funciones.