No estuve de acuerdo con las otras respuestas en los comentarios, por lo que es justo que dé las mías. Sea la respuesta (cuentas buenas / malas) y X las covariables.YX
Para la regresión logística, el modelo es el siguiente:
Iniciar sesión( p ( Y= 1 | X= x )p ( Y= 0 | X= x )) =α+ ∑ki = 1Xyoβyo
Piense en cómo se podrían recopilar los datos:
- Puede seleccionar las observaciones al azar de alguna "población" hipotética
- Puede seleccionar los datos en función de y ver qué valores de ocurren.YXY
Ambos son bien que el modelo anterior, ya que sólo está modelando la distribución de . Estos se llamarían un estudio prospectivo .YEl | X
Alternativamente:
- Puede seleccionar las observaciones basadas en (digamos 100 de cada una) y ver la prevalencia relativa de (es decir, está estratificando en ). Esto se llama un estudio retrospectivo o de casos y controles .X YYXY
(También puede seleccionar los datos basados en y ciertas variables de : este sería un estudio estratificado de casos y controles, y es mucho más complicado trabajar con él, por lo que no lo abordaré aquí).XYX
Hay un buen resultado de la epidemiología (ver Prentice y Pyke (1979) ) que para un estudio de casos y controles, las estimaciones de probabilidad máxima para se pueden encontrar por regresión logística, es decir, utilizando el modelo prospectivo para datos retrospectivos.β
Entonces, ¿cómo es esto relevante para su problema?
Bueno, significa que si puede recopilar más datos, puede mirar las cuentas malas y seguir utilizando la regresión logística para estimar las (pero necesitaría ajustar el α para tener en cuenta la sobrerrepresentación ) Digamos que cuesta $ 1 por cada cuenta adicional, entonces esto podría ser más rentable que simplemente mirar todas las cuentas.βyoα
Pero, por otro lado, si ya tiene TODOS los datos posibles, no tiene sentido estratificar: simplemente estaría desechando datos (dando peores estimaciones), y luego se quedaría con el problema de tratar de estimar .α