¿Cuál es la correlación entre las variables independientes? Esto es menos importante para la predicción pura, pero si desea obtener información inferencial, es importante que las variables independientes no estén correlacionadas. Por lo general, cuando utiliza la regresión logística en un entorno empresarial, la información inferencial sobre las variables utilizadas junto con una buena predicción es lo que buscan las partes interesadas.
Además, otra buena razón para eliminar variables es la parsimonia modelo. Algunas razones para esto son para fines de revisión interna, regulación legal y facilidad de implementación. Esto hace que sea altamente deseable encontrar el conjunto más pequeño de variables que brinden buena información comercial y buenas predicciones. Por ejemplo, si está desarrollando un modelo de crédito, todas las variables están sujetas a revisión legal, cada variable debe estar disponible e inmediatamente devolver valores cuando se les solicite la calificación del préstamo, y las partes interesadas (que generalmente no tienen experiencia en la construcción de modelos) tienden no querer mirar modelos complicados cargados de variables.
También puede ser útil probar un bosque aleatorio para tener una idea de la importancia variable y también verificar el poder predictivo con y sin todas las variables.
Finalmente, debe tener una buena razón para transformar una variable. Lanzar cada transformación contra una variable hasta que encuentre una que le brinde el resultado que desea es una buena manera de obtener un modelo sobreajustado que funcione mal en los nuevos datos.