¿Cuáles son las consecuencias de eventos raros en la regresión logística?

Sé que el tamaño de la muestra afecta la potencia en cualquier método estadístico. Hay reglas para determinar cuántas muestras necesita una regresión para cada predictor.

También escucho a menudo que el número de muestras en cada categoría en la variable dependiente de una regresión logística es importante. ¿Por qué es esto?

¿Cuáles son las consecuencias reales del modelo de regresión logística cuando el número de muestras en una de las categorías es pequeño (eventos raros)?

¿Existen reglas generales que incorporen tanto el número de predictores como el número de muestras en cada nivel de la variable dependiente?

logistic assumptions rare-events

— Genial38
fuente

stats.stackexchange.com/questions/306122/… stats.stackexchange.com/questions/178015/… (y muchas preguntas similares sin respuesta)

— kjetil b halvorsen

Creo que esta referencia puede ayudar. Manel, S., Williams, HC, Ormerod, SJ, 2001. Evaluación de modelos de presencia-ausencia en ecología: la necesidad de tener en cuenta la prevalencia. J. Appl. Ecol. 38 (5), 921–931. dx.doi.org/10.1046/j.1365-2664.2001.00647.x Hay mucho más sobre el modelado de conjuntos de datos no balanceados.

— Rafa_Mas

La regla general estándar para la regresión lineal (OLS) es que necesita al menos datos por variable o se acercará a la saturación . Sin embargo, para la regresión logística, la regla general correspondiente es que desea datos de la categoría menos común para cada variable. $10$ $15$

El problema aquí es que los datos binarios simplemente no contienen tanta información como los datos continuos. Además, puede tener predicciones perfectas con muchos datos, si solo tiene un par de eventos reales. Para hacer un ejemplo que es bastante extremo, pero que debe quedar claro de inmediato, considere un caso en el que tiene , y por lo tanto trató de ajustar un modelo con predictores, pero solo tuvo eventos. Simplemente no se puede incluso estimar la asociación entre la mayor parte de sus variables- y . $N = 300$ $30$ $3$ $X$ $Y$

— gung - Restablece a Monica
fuente

+1 Además, con eventos raros necesitará una cantidad sorprendentemente grande de casos para estimar la intercepción verdadera ( Harrell , en la p. 233, dice que 96 casos en total tienen un 95% de confianza de haber pronosticado la probabilidad dentro de 0.1 del valor verdadero cuando es verdadero la probabilidad es cercana a 0 en un modelo de solo intercepción), y si hay un muestreo desequilibrado, es posible que necesite una corrección de eventos raros

— EdM

Entonces, eventos raros pueden sesgar la intercepción estimada. ¿Los eventos raros causan otros problemas específicos (inconsistencia, inestabilidad, problemas de convergencia al calcular el MLE)?

— Genial38

@ Great38 el problema de "predicciones perfectas" en esta respuesta puede conducir a problemas de convergencia y errores estándar amplios. Vea esta publicación y otras sobre el efecto Hauck-Donner o la separación perfecta.

— EdM

@ Great38, la pregunta no está clara. Realmente no hay ningún problema con eventos raros. Si tengo

10^{20}

$10^{20}$ datos, pero con 'solo'

10^{6}

$10^{6}$ eventos en un modelo con cientos de predictores, mi tasa de eventos es

0.00000000000001

$0.00000000000001$ Pero no debería esperar tener ningún problema a pesar de mi baja proporción de eventos y mis cientos de predictores.

— gung - Restablece a Monica