Tengo un conjunto de datos en el que la tasa de eventos es muy baja (40,000 de ). Estoy aplicando regresión logística en esto. He tenido una discusión con alguien donde se descubrió que la regresión logística no daría una buena matriz de confusión en datos de tan baja tasa de eventos. Pero debido al problema comercial y la forma en que se ha definido, no puedo aumentar el número de eventos de 40,000 a un número mayor, aunque estoy de acuerdo en que puedo eliminar alguna población no existente.
Cuéntame tu opinión sobre esto, específicamente:
- ¿La precisión de la regresión logística depende de la tasa de eventos o hay una tasa mínima de eventos que se recomienda?
- ¿Existe alguna técnica especial para los datos de baja tasa de eventos?
- ¿Eliminar mi población sin eventos sería bueno para la precisión de mi modelo?
Soy nuevo en el modelado estadístico, así que perdone mi ignorancia y aborde cualquier problema asociado en el que pueda pensar.
Gracias,