Esta pregunta es algo general y de largo aliento, pero por favor tengan paciencia conmigo.
En mi aplicación, tengo muchos conjuntos de datos, cada uno con ~ 20,000 puntos de datos con ~ 50 características y una sola variable binaria dependiente. Estoy intentando modelar los conjuntos de datos usando regresión logística regularizada (paquete R glmnet )
Como parte de mi análisis, he creado gráficos residuales de la siguiente manera. Para cada característica, clasifico los puntos de datos según el valor de esa característica, divido los puntos de datos en 100 cubos y luego calculo el valor de salida promedio y el valor de predicción promedio dentro de cada cubo. Trazo estas diferencias.
Aquí hay un ejemplo de diagrama residual:
En la gráfica anterior, la característica tiene un rango de [0,1] (con una fuerte concentración en 1). Como puede ver, cuando el valor de la característica es bajo, el modelo parece estar sesgado para sobreestimar la probabilidad de una salida de 1. Por ejemplo, en el segmento más a la izquierda, el modelo sobreestima la probabilidad en aproximadamente un 9%.
Armado con esta información, me gustaría alterar la definición de la función de una manera directa para corregir este sesgo. Alteraciones como reemplazar
o
¿Cómo puedo hacer esto? Estoy buscando una metodología general para que un humano pueda desplazarse rápidamente a través de las ~ 50 parcelas y realizar modificaciones, y hacer esto para todos los conjuntos de datos y repetir a menudo para mantener los modelos actualizados a medida que los datos evolucionan con el tiempo.
Como pregunta general, ¿es este incluso el enfoque correcto? Las búsquedas en Google de "análisis residual de regresión logística" no arrojan muchos resultados con buenos consejos prácticos. Parecen estar obsesionados con responder la pregunta: "¿Es este modelo un buen ajuste?" y ofrecen varias pruebas como Hosmer-Lemeshow para responder. Pero no me importa si mi modelo es bueno, ¡quiero saber cómo mejorarlo!