Preguntas básicas sobre el análisis discreto de supervivencia en el tiempo

Estoy tratando de llevar a cabo un análisis discreto de supervivencia en el tiempo utilizando un modelo de regresión logística, y no estoy seguro de entender completamente el proceso. Agradecería mucho la ayuda con algunas preguntas básicas.

Aquí está la configuración:

Estoy viendo la membresía en un grupo dentro de un período de cinco años. Cada miembro tiene un registro mensual de membresía por cada mes que ese miembro está en el grupo. Estoy considerando a todos los miembros cuya membresía comenzó durante el período de cinco años (para evitar problemas de "censura a la izquierda" con miembros que se unieron antes). Cada registro se indexará por tiempo, siendo el primer mes el miembro al que se unió. Por lo tanto, un miembro que se quede por dos años y medio tendrá treinta registros mensuales, numerados del uno al treinta. A cada registro también se le asignará una variable binaria, que tendrá un valor de uno para el último mes de membresía y cero en caso contrario; un valor de uno para la variable binaria marca el evento de que el miembro haya abandonado el grupo. Para cada miembro cuya membresía continúa más allá de la ventana de análisis de cinco años,

Entonces, el modelo de regresión logística está construido para predecir los valores de la variable de evento binario. Hasta aquí todo bien. Una de las formas típicas de evaluar un modelo predictivo binario es medir la elevación en una muestra reservada. Para el modelo de regresión logística que he construido para predecir el evento de finalización de la membresía, he calculado el aumento en un conjunto de datos de reserva con una relación de cinco a uno de no eventos a eventos. Clasifiqué los valores pronosticados en deciles. El decil con los valores predichos más altos contiene setenta por ciento, un aumento de más de cuatro. Los dos primeros deciles combinados contienen el sesenta y cinco por ciento de todos los que están en el holdout. En ciertos contextos, esto se consideraría un modelo predictivo bastante decente, pero me pregunto si es lo suficientemente bueno como para llevar a cabo un análisis de supervivencia.

Sea la función de peligro para el individuo en el mes , y sea la probabilidad de que el individuo sobreviva hasta el mes . $h[j,k]$ $j$ $k$ $S[j,k]$ $j$ $k$

Aquí están mis preguntas fundamentales:

¿Es la función de riesgo discreto, , la probabilidad condicional de no supervivencia (abandono del grupo) en cada mes? $h[j,k]$
¿Son los valores pronosticados de las estimaciones del modelo de regresión logística de la función de peligro? (es decir, ¿es igual al valor predicho del modelo para el individuo en el mes , o se necesita hacer algo más para obtener estimaciones de la función de peligro?) $h[j,k]$ $j$ $k$
¿Es la probabilidad de supervivencia hasta el mes q para el individuo igual al producto de uno menos la función de riesgo desde el mes uno hasta el , es decir, hace ? $j$ $q$ $S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q])$
¿Es el valor medio de sobre todos los individuos para cada vez una estimación razonable de la probabilidad de supervivencia media de la población general? $S[j,k]$ $j$ $k$
¿Debería una gráfica de la probabilidad de supervivencia media de la población general por mes parecerse al gráfico mensual de Kaplan-Meier?

Si la respuesta a cualquiera de estas preguntas es no, entonces tengo un malentendido grave, y realmente podría necesitar ayuda / explicación. Además, ¿hay alguna regla general sobre cuán bueno debe ser el modelo predictivo binario para producir un perfil de supervivencia preciso?

— Talbot Katz
fuente

Tal vez esto pueda ayudarte con algunas de tus preguntas

— jujae

Suponga que $K$ es el valor más grande de $k$ (es decir, el mes / período más grande observado en sus datos).

Aquí está la función de peligro con una parametrización del tiempo completamente discreta, y con un vector de parámetros $\mathbf{B}$ un vector de variables condicionantes $\mathbf{X}$ : $h_{j,k} = \frac{e^{\alpha_{k} + \mathbf{BX}}}{1 + e^{\alpha_{k} + \mathbf{BX}}}$ . La función de peligro también puede construirse alrededor de parametrizaciones alternativas del tiempo (por ejemplo, incluir $k$ o funciones de la misma como una variable en el modelo), o alrededor de un híbrido de ambos.

La función de riesgo logit de referencia describe la probabilidad de ocurrencia de un evento en el tiempo $k$ , con la condición de haber sobrevivido al tiempo $k$ . Agregar predictores ( $\mathbf{X}$ ) al modelo limita aún más esta condicionalidad.
No, las estimaciones de regresión logística $\hat{\alpha}_{1}$ , $\dots$ , , ) son no las funciones de riesgo propios. Los modelos de regresión logística: logit , y debe realizar la transformación anti-logit en (1) anterior para obtener las estimaciones de peligro. $\hat{\alpha}_{K}$ $\mathbf{\hat{B}}$ $(h_{j,k}) = \alpha_{k} + \mathbf{BX}$
$\hat{S}_{j,q} = \prod_{i=1}^{q}{(1-h_{j,i})}$ $k$ $\mathbf{X}$
$\beta$ $\hat{h}_{j,k}$ $\hat{S}_{j,k}$ $\hat{S}_{j,k}$
$1 - S_{j,k}$

— Alexis
fuente

Creo que en la pregunta 2, OP pregunta sobre el valor pronosticado del modelo logístico, no las estimaciones de los coeficientes de regresión. Esto podría ser relevante

— jujae

\hat{h} (t)

$\hat{h}(t)$

y_{p r e d} = \exp (β^{T} x) / (1 + \exp (β^{T} x))

$y_\mathrm{pred}= \exp(\beta^Tx)/(1+\exp(\beta^Tx))$

Volviendo a la pregunta original 2, el OP preguntó: "¿Los valores predichos de las estimaciones del modelo de regresión logística de la función de peligro?" Yo diría que sí (si mi comprensión del valor predicho es correcta). Y usted dice que no y da el argumento de que los coeficientes estimados no son lo mismo que la estimación de riesgos. Estoy de acuerdo con su afirmación, son correctas, pero no es lo que OP me pidió.

— jujae

k

$k$

{\hat{S}}_{j} (k)

$\hat{S}_j(k)$

S (k)

$S(k)$