Cuando clasificas usando logit, esto es lo que sucede.
El logit predice la probabilidad de incumplimiento (PD) de un préstamo, que es un número entre 0 y 1. A continuación, establece un umbral D, de modo que marca un préstamo como predeterminado si PD> D, y lo marca como no predeterminado si PD
Naturalmente, en una población de préstamos típica PD << 1. Por lo tanto, en su caso, el 7% es una probabilidad bastante alta de datos de un año (las PD normalmente se informan anualmente). Si se trata de datos de varios años, entonces estamos hablando de la llamada PD acumulativa, en este caso cumPD = 7% no es un número alto para 10 años de datos, por ejemplo. Por lo tanto, según cualquier estándar, no diría que su conjunto de datos es problemático. Lo describiría al menos como típico para los datos de incumplimiento de préstamo, si no es excelente (en el sentido de que tiene un número relativamente alto de incumplimientos).
Ahora, suponga que su modelo predice los siguientes tres niveles de EP:
- 0,1 (563,426)
- 0.5 (20,000)
- 0.9 (31,932)
Supongamos también que los valores predeterminados reales para estos grupos fueron:
Ahora puede establecer D en diferentes valores y ver cómo cambia la matriz. Usemos D = 0.4 primero:
- Predeterminado real, predecir no predeterminado: 0
- Valor predeterminado real, valor predeterminado de predicción: 41,932
- Real no predeterminado, predecir no predeterminado: 563,426
- Real no predeterminado, predecir predeterminado: 10,000
Si configura D = 0.6:
- Predeterminado real, predecir no predeterminado: 31,932
- Valor predeterminado real, predecir valor predeterminado: 10,000
- Real no predeterminado, predecir no predeterminado: 573,426
- Real no predeterminado, predecir predeterminado: 0
Si configura D = 0.99:
- Predeterminado real, predecir no predeterminado: 41,932
- Valor predeterminado real, predecir valor predeterminado: 0
- Real no predeterminado, predecir no predeterminado: 573,426
- Real no predeterminado, predecir predeterminado: 0
El último caso es lo que ve en los resultados de su modelo. En este caso, enfatizo el umbral D para un clasificador. Un cambio simple en D puede mejorar ciertas características de su pronóstico. Tenga en cuenta que en los tres casos la PD prevista se mantuvo igual, solo el umbral D ha cambiado.
También es posible que su regresión logit sea mala, por supuesto. Entonces, en este caso tiene al menos dos variables: la especificación logit y el umbral. Ambos impactan su poder de pronóstico.