Estoy tratando de llevar a cabo un análisis discreto de supervivencia en el tiempo utilizando un modelo de regresión logística, y no estoy seguro de entender completamente el proceso. Agradecería mucho la ayuda con algunas preguntas básicas.
Aquí está la configuración:
Estoy viendo la membresía en un grupo dentro de un período de cinco años. Cada miembro tiene un registro mensual de membresía por cada mes que ese miembro está en el grupo. Estoy considerando a todos los miembros cuya membresía comenzó durante el período de cinco años (para evitar problemas de "censura a la izquierda" con miembros que se unieron antes). Cada registro se indexará por tiempo, siendo el primer mes el miembro al que se unió. Por lo tanto, un miembro que se quede por dos años y medio tendrá treinta registros mensuales, numerados del uno al treinta. A cada registro también se le asignará una variable binaria, que tendrá un valor de uno para el último mes de membresía y cero en caso contrario; un valor de uno para la variable binaria marca el evento de que el miembro haya abandonado el grupo. Para cada miembro cuya membresía continúa más allá de la ventana de análisis de cinco años,
Entonces, el modelo de regresión logística está construido para predecir los valores de la variable de evento binario. Hasta aquí todo bien. Una de las formas típicas de evaluar un modelo predictivo binario es medir la elevación en una muestra reservada. Para el modelo de regresión logística que he construido para predecir el evento de finalización de la membresía, he calculado el aumento en un conjunto de datos de reserva con una relación de cinco a uno de no eventos a eventos. Clasifiqué los valores pronosticados en deciles. El decil con los valores predichos más altos contiene setenta por ciento, un aumento de más de cuatro. Los dos primeros deciles combinados contienen el sesenta y cinco por ciento de todos los que están en el holdout. En ciertos contextos, esto se consideraría un modelo predictivo bastante decente, pero me pregunto si es lo suficientemente bueno como para llevar a cabo un análisis de supervivencia.
Sea la función de peligro para el individuo j en el mes k , y sea S [ j , k ] la probabilidad de que el individuo j sobreviva hasta el mes k .
Aquí están mis preguntas fundamentales:
¿Es la función de riesgo discreto, , la probabilidad condicional de no supervivencia (abandono del grupo) en cada mes?
¿Son los valores pronosticados de las estimaciones del modelo de regresión logística de la función de peligro? (es decir, ¿es igual al valor predicho del modelo para el individuo j en el mes k , o se necesita hacer algo más para obtener estimaciones de la función de peligro?)
¿Es la probabilidad de supervivencia hasta el mes q para el individuo igual al producto de uno menos la función de riesgo desde el mes uno hasta el q , es decir, hace S [ j , q ] = ( 1 - h [ j , 1 ] ) ⋅ ( 1 - h [ j , 2 ] ) ⋅ … ⋅ ( 1 - h [ j , q ] ) ?
¿Es el valor medio de sobre todos los individuos j para cada vez k una estimación razonable de la probabilidad de supervivencia media de la población general?
¿Debería una gráfica de la probabilidad de supervivencia media de la población general por mes parecerse al gráfico mensual de Kaplan-Meier?
Si la respuesta a cualquiera de estas preguntas es no, entonces tengo un malentendido grave, y realmente podría necesitar ayuda / explicación. Además, ¿hay alguna regla general sobre cuán bueno debe ser el modelo predictivo binario para producir un perfil de supervivencia preciso?