¿Cuándo eliminar variables insignificantes?


9

Estoy trabajando en el modelo de regresión logística. Verifiqué el resumen del modelo que se basa en 5 variables independientes, cuál no es significativa con un valor P de 0,74. Deseo saber si eliminamos directamente la variable o hay alguna otra forma de verificar su importancia ?

Un senior mío sugirió hacer una transformación logarítmica de la variable insignificante y buscar correlación en ese momento. ¿Eso contará para verificar su importancia?

model <- glm(Buy ~ a_score + b_score+ c_score+lb+p, data = history, family = binomial)

Todas las variables resultan ser significativas con 2 o 3 estrellas, aparte de un puntaje que se muestra insignificante.


¿Cuál es el objetivo de su ejercicio de construcción de modelos? ¿Está interesado en estadísticas inferenciales, por ejemplo, para un artículo académico o en predicción?
Stephan Kolassa

Respuestas:


42

Permítanme preguntar primero esto: ¿Cuál es el objetivo del modelo? Si solo está interesado en predecir si un cliente comprará, entonces las pruebas de hipótesis estadísticas realmente no son su principal preocupación. En cambio, debe validar externamente su modelo a través de un procedimiento de validación / prueba en datos no vistos.

Si, en cambio, está interesado en examinar qué factores contribuyen a la probabilidad de que un cliente compre, entonces no hay necesidad de eliminar las variables que no rechazan el valor nulo (especialmente de manera gradual). Presumiblemente, incluyó una variable en su modelo porque pensó (por experiencia pasada u opinión de expertos) que desempeñó un papel importante en un cliente que decidía si compraría. Que la variable no haya podido rechazar el valor nulo no hace que su modelo sea malo, solo significa que su muestra no detectó un efecto de esa variable. Eso está perfectamente bien.


3
Votado por la excelencia de la respuesta.
James Phillips

8
+1 Eliminar predictores potencialmente relacionados con el resultado (incluso si es "insignificante") es complicado en la regresión logística, dado su sesgo inherente a la variable omitida . Eliminar un predictor relacionado con el resultado puede conducir a un sesgo en las estimaciones de los coeficientes de los predictores retenidos, incluso si los predictores retenidos no están correlacionados con el predictor eliminado.
EdM

3
Esta es de hecho una respuesta muy clara.
Gented

2

Eche un vistazo a las páginas de ayuda para step(), drop1()y add1(). Esto lo ayudará a agregar / eliminar variables basadas en AIC. Sin embargo, todos estos métodos son algo defectuosos en su dependencia del camino. Una mejor manera sería usar las funciones en el paquete penalizado o glmnet para realizar una regresión de lazo.


-1

¿Cuál es la correlación entre las variables independientes? Esto es menos importante para la predicción pura, pero si desea obtener información inferencial, es importante que las variables independientes no estén correlacionadas. Por lo general, cuando utiliza la regresión logística en un entorno empresarial, la información inferencial sobre las variables utilizadas junto con una buena predicción es lo que buscan las partes interesadas.

Además, otra buena razón para eliminar variables es la parsimonia modelo. Algunas razones para esto son para fines de revisión interna, regulación legal y facilidad de implementación. Esto hace que sea altamente deseable encontrar el conjunto más pequeño de variables que brinden buena información comercial y buenas predicciones. Por ejemplo, si está desarrollando un modelo de crédito, todas las variables están sujetas a revisión legal, cada variable debe estar disponible e inmediatamente devolver valores cuando se les solicite la calificación del préstamo, y las partes interesadas (que generalmente no tienen experiencia en la construcción de modelos) tienden no querer mirar modelos complicados cargados de variables.

También puede ser útil probar un bosque aleatorio para tener una idea de la importancia variable y también verificar el poder predictivo con y sin todas las variables.

Finalmente, debe tener una buena razón para transformar una variable. Lanzar cada transformación contra una variable hasta que encuentre una que le brinde el resultado que desea es una buena manera de obtener un modelo sobreajustado que funcione mal en los nuevos datos.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.