Regresión logística con variables predictoras dispersas

8

Actualmente estoy modelando algunos datos usando una regresión logística binaria. La variable dependiente tiene una buena cantidad de casos positivos y negativos, no es escasa. También tengo un gran conjunto de entrenamiento (> 100,000) y el número de efectos principales que me interesan es de aproximadamente 15, así que no me preocupa un problema p> n.

Lo que me preocupa es que muchas de mis variables predictoras, si son continuas, son cero la mayor parte del tiempo, y si son nominales, son nulas la mayor parte del tiempo. Cuando estas variables predictoras dispersas toman un valor> 0 (o no son nulas), sé que, debido a la familiaridad con los datos, deberían ser importantes para predecir mis casos positivos. He estado tratando de buscar información sobre cómo la escasez de estos predictores podría estar afectando a mi modelo.

En particular, no quisiera que el efecto de una variable escasa pero importante no se incluyera en mi modelo si hay otra variable predictora que no es escasa y está correlacionada pero que en realidad no hace un buen trabajo al predecir los casos positivos .

Para ilustrar un ejemplo, si estaba tratando de modelar si alguien terminó siendo aceptado o no en una universidad de la liga de hiedra en particular y mis tres predictores fueron puntaje SAT, GPA y "donación> 1 millón de dólares" como binario, tengo razón creer que "donación> 1 millón de dólares", cuando sea cierto, va a ser muy predictivo de aceptación, más que un GPA o SAT alto, pero también es muy escaso. ¿Cómo, si es que afecta, afectará mi modelo logístico? ¿Necesito hacer ajustes para esto? Además, ¿otro tipo de modelo (por ejemplo, árbol de decisión, bosque aleatorio, etc.) manejaría esto mejor?

— Christianne
fuente

2

1) La regularización de L1 puede atenuar la falta de datos.

2) También puede probar el submuestreo y el sobremuestreo de datos (no olvide calibrar el resultado en función de la ración de muestreo utilizada anteriormente)

3) Su modelo también se encargará de la importancia de las diferentes variables.

— Arpit Sisodia
fuente

0

Si sus datos vienen con un poco de incertidumbre, podría crear un nivel de confianza en torno a una variable predictiva dispersa. En su ejemplo, una variable categórica donde:

0 = ciertamente no donado> $ 1 millón de dólares

1 = posiblemente donado> $ 1 millón de dólares

2 = ciertamente donado> $ 1 millón de dólares

Esto me ha funcionado bien en el pasado

— Bee Gee
fuente