Estoy tratando de ajustar una regresión logística donde hay una gran diferencia en el número de puntos de datos en cualquier grupo (70 Vs 10,000). Un amigo estadístico mío me ha dicho que este es un problema conocido con la regresión logística y que para ese tipo de números excede los datos y, básicamente, no funciona. Cuando comparto los datos y los comparo con el modelo, es bastante obvio que este es definitivamente el caso.
Me pregunto si alguien conoce un método mejor / más flexible para ajustar este tipo de datos de respuesta binaria.
(Por cierto, no soy un estadístico, ¡así que ve con calma!)