Tengo 100,000 observaciones (9 variables indicadoras ficticias) con 1000 positivos. La regresión logística debería funcionar bien en este caso, pero la probabilidad de corte me desconcierta.
En la literatura común, elegimos 50% de corte para predecir 1s y 0s. No puedo hacer esto ya que mi modelo da un valor máximo de ~ 1%. Por lo tanto, un umbral puede estar en 0.007 o en algún lugar a su alrededor.
Entiendo las ROC
curvas y cómo el área debajo de la curva puede ayudarme a elegir entre dos modelos LR para el mismo conjunto de datos. Sin embargo, ROC no me ayuda a elegir una probabilidad de corte óptima que pueda usarse para probar el modelo con datos fuera de la muestra.
¿Debo simplemente usar un valor de corte que minimice el misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Agregado -> Para una tasa de eventos tan baja, mis tasas de clasificación errónea se ven afectadas por una gran cantidad de falsos positivos. Si bien la tasa general parece buena, ya que el tamaño total del universo también es grande, pero mi modelo no debería tener tantos falsos positivos (ya que es un modelo de retorno de la inversión). 5/10 coeff son significativos.