Equilibrio en el conjunto de entrenamiento
Para los modelos de regresión logística, los datos de entrenamiento desequilibrados afectan solo la estimación de la intercepción del modelo (aunque esto, por supuesto, sesga todas las probabilidades predichas, lo que a su vez compromete sus predicciones). Afortunadamente, la corrección de la intersección es sencilla: siempre que conozca, o pueda adivinar, la verdadera proporción de 0s y 1s y conozca las proporciones en el conjunto de entrenamiento, puede aplicar una corrección de eventos raros a la intersección. Los detalles se encuentran en King y Zeng (2001) [ PDF ].
Estas 'correcciones de eventos raros' se diseñaron para diseños de investigación de control de casos, utilizados principalmente en epidemiología, que seleccionan casos eligiendo un número fijo, generalmente equilibrado de 0 casos y 1 casos, y luego necesitan corregir el sesgo de selección de muestra resultante. De hecho, puede entrenar a su clasificador de la misma manera. Elija una buena muestra equilibrada y luego corrija la intersección para tener en cuenta el hecho de que ha seleccionado en la variable dependiente para aprender más sobre las clases más raras de lo que una muestra aleatoria podría decirle.
Haciendo predicciones
Sobre un tema relacionado pero distinto: no olvide que debe realizar un umbral inteligente para hacer predicciones. No siempre es mejor predecir 1 cuando la probabilidad del modelo es mayor 0.5. Otro umbral puede ser mejor. Para este fin, debe examinar las curvas de características de funcionamiento del receptor (ROC) de su clasificador, no solo su éxito predictivo con un umbral de probabilidad predeterminado.