Básicamente tienes razón sobre la organización de datos. Si tiene casos organizados así:
ID M1 M2 M3 EVENT
Es probable que desee reorganizar los datos para que se vean así:
ID TIME EVENT
1 1 0
1 2 1
1 3 1
2 1 0
2 2 0
. . .
. . .
Llamo a esto una conversión de un formato ancho a un formato largo. Se hace fácilmente en R usando la reshape()
función o incluso más fácilmente con el reshape2
paquete.
Personalmente, mantendría el ID
campo para su uso potencial en la identificación de una fuente de variación en un modelo de efectos mixtos. Pero esto no es necesario (como lo señaló @BerndWeiss). Lo siguiente asume que te gustaría hacerlo. De lo contrario, ajuste un modelo similar glm(...,family=binomial)
sin los términos de efecto aleatorio.
El lme4
paquete en R se ajustará a un modelo de regresión logística de efectos mixtos similar al que está hablando, excepto con un efecto aleatorio o dos para tener en cuenta la variabilidad en los coeficientes entre los sujetos ( ID
). El siguiente sería un código de ejemplo para ajustar un modelo de ejemplo si sus datos se almacenan en un marco de datos llamado df
.
require(lme4)
ans <- glmer(EVENT ~ TIME + (1+TIME|ID), data=df, family=binomial)
Este modelo en particular permite que las TIME
y los intercept
coeficientes que varían aleatoriamente a través de ID. En otras palabras, este es un modelo jerárquico lineal mixto de medidas anidadas en individuos.
Una forma alternativa de un modelo de historial de eventos de tiempo discreto se divide TIME
en dummies discretos y se ajusta a cada uno como parámetro. Este es esencialmente el caso discreto del modelo Cox PH porque la curva de riesgo no está restringida a ser lineal (o cuadrática, o como se pueda imaginar transformando el tiempo). Sin TIME
embargo , es posible que desee agrupar en un conjunto manejable (es decir, pequeño) de períodos de tiempo discretos si hay muchos de ellos.
Otras alternativas implican transformar el tiempo para obtener la curva de riesgo correcta. El método anterior básicamente lo alivia de tener que hacer esto, pero el método anterior es menos parsimonioso que este (y el caso lineal original que planteé) porque puede tener muchos puntos de tiempo y, por lo tanto, muchos parámetros molestos.
Una excelente referencia sobre este tema es el Análisis de datos longitudinales aplicados de Judith Singer y John Willet : Modelado de cambio y ocurrencia de eventos .
self-study
etiqueta.)