Me gustaría estudiar eventos raros en una población finita. Como no estoy seguro de qué estrategia es la más adecuada, agradecería consejos y referencias relacionadas con este asunto, aunque soy consciente de que se ha cubierto en gran medida. Simplemente no sé por dónde empezar.
Mi problema es de ciencias políticas y tengo una población finita que comprende 515,843 registros. Están asociados a una variable dependiente binaria con 513,334 "0" sy 2,509 "1" s. Puedo acuñar mis "1" como eventos raros ya que representan solo el 0,49% de la población.
Tengo un conjunto de alrededor de 10 variables independientes con las que me gustaría construir un modelo para explicar la presencia de "1". Como muchos de nosotros, leí el artículo de King & Zeng de 2001 sobre la corrección de eventos raros. Su enfoque consistía en utilizar un diseño de control de casos para reducir el número de "0", y luego aplicar la corrección a la intercepción.
Sin embargo, esta publicación dice que el argumento de King y Zeng no era necesario si ya recopilaba mis datos sobre toda la población, que es mi caso. Por lo tanto, tengo que usar el modelo logit clásico. Desafortunadamente para mí, aunque obtengo buenos coeficientes significativos, mi modelo es completamente inútil en términos de predicción (no puede predecir el 99.48% de mis "1" s).
Después de leer el artículo de King & Zeng, quería probar un diseño de control de casos y seleccioné solo el 10% de los "0" con todos los "1". Con casi los mismos coeficientes, el modelo fue capaz de predecir casi un tercio de los "1" cuando se aplicó a toda la población. Por supuesto, hay muchos falsos positivos.
Por lo tanto, tengo tres preguntas que me gustaría hacerle:
1) Si el enfoque de King & Zeng es perjudicial cuando se tiene un conocimiento completo de la población, ¿por qué utilizan una situación en la que conocen a la población en su artículo para demostrar su punto?
2) Si tengo coeficientes buenos y significativos en una regresión logit, pero un poder predictivo muy pobre, ¿eso significa que la variación explicada por estas variables no tiene sentido?
3) ¿Cuál es el mejor enfoque para lidiar con eventos raros? Leí sobre el modelo de relogit de King, el enfoque de Firth, el logit exacto, etc. Debo confesar que estoy perdido entre todas estas soluciones.