La idea de gui11aume de construir un modelo de dos etapas es el camino correcto, sin embargo, uno debe considerar la dificultad especial de su configuración, que es la fuerte correlación negativa entre el monto de la deuda y la probabilidad de realizar un pago
El problema principal de construir un modelo de dos etapas aquí es que el segundo modelo (para la predicción de la deuda), cuando se construye solo sobre "no ceros", se basa en una muestra de población no aleatoria muy probable ( es decir, todo el conjunto de datos), pero el modelo combinado debe aplicarse nuevamente a toda la población. Esto significa que el segundo modelo tendrá que hacer predicciones para partes de los datos que nunca ha visto antes, lo que provocará una pérdida de precisión. Esto se llama Sesgo de selección de muestra (para una visión general desde una perspectiva de ML, recomiendo un marco de red bayesiano para la inferencia de rechazo por Smith y Elkan).
La KDD-Cup-98 se ocupó de un problema similar en el que uno debería predecir si un donante para una organización de veteranos probablemente donará nuevamente y cuánto es probable que done. En este conjunto de datos, la probabilidad de volver a donar también se correlacionó negativamente con la cantidad de dinero esperada. El sesgo de selección de muestra también apareció.
La solución que más me impresionó se puede encontrar en Aprender y tomar decisiones cuando los costos y las probabilidades son desconocidos por Bianca Zadrozny y Charles Elkan. Han creado una solución sensible al costo basada en la corrección de Heckman , que es, según mi conocimiento, el primer enfoque sistemático para corregir el sesgo de selección (muestra).