Divulgación completa: esta es la tarea. He incluido un enlace al conjunto de datos ( http://www.bertelsen.ca/R/logistic-regression.sav )
Mi objetivo es maximizar la predicción de incumplimientos de préstamos en este conjunto de datos.
Todos los modelos que se me ocurrieron hasta ahora predicen> 90% de los no morosos, pero <40% de los morosos hacen que la eficiencia de clasificación sea general ~ 80%. Entonces, me pregunto si hay efectos de interacción entre las variables. Dentro de una regresión logística, aparte de probar cada combinación posible, ¿hay alguna manera de identificar posibles efectos de interacción? O, alternativamente, una forma de aumentar la eficiencia de la clasificación de los morosos.
Estoy atascado, cualquier recomendación sería útil en su elección de palabras, código R o sintaxis SPSS.
Mis variables principales se resumen en el siguiente histograma y diagrama de dispersión (con la excepción de la variable dicotómica)
Una descripción de las variables primarias:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
Las variables adicionales son solo transformaciones de lo anterior. También intenté convertir algunas de las variables continuas en variables categóricas e implementarlas en el modelo, no hubo suerte allí.
Si desea ingresarlo en R, rápidamente, aquí está:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)