Dos años de datos que describen la ocurrencia de violencia, pruebas de asociación con el número de pacientes en la sala

Tengo dos años de datos que se ven básicamente así:

Fecha _ __ Violencia S / N? _ Número de pacientes

1/1/2008 _ ___ 0 0 __ _ __ _ ____ 11

2/1/2008 _ __ _ 0 _ __ _ __ _ __ 11

3/1/2008 _ ____ 1 __ _ __ _ ____ 12

4/1/2008 _ ____ 0 __ _ __ _ ____ 12

...

31/12/2009_ _ __ 0_ _ __ _ __ _ __ 14

es decir, dos años de observaciones, una por día, de una sala psiquiátrica, que indican si hubo un incidente de violencia ese día (1 es sí, 0 no), así como el número de pacientes en la sala. La hipótesis que deseamos probar es que más pacientes en la sala están asociados con una mayor probabilidad de violencia en la sala.

Por supuesto, nos damos cuenta de que tendremos que adaptarnos al hecho de que cuando hay más pacientes en la sala, la violencia es más probable porque solo hay más de ellos; nos interesa saber si la probabilidad de violencia de cada individuo aumenta cuando Hay más pacientes en la sala.

He visto varios artículos que simplemente usan regresión logística, pero creo que eso está mal porque hay una estructura autorregresiva (aunque, al observar la función de autocorrelación, no supera el .1 en ningún retraso, aunque esto está por encima del Línea discontinua azul "significativa" que R dibuja para mí).

Solo para complicar las cosas, puedo hacerlo si deseo desglosar los resultados en pacientes individuales, para que los datos se vean tal como se indica arriba, excepto que tendría los datos de cada paciente, 1/1/2008, 2 / 1/2008, etc., y un código de identificación que va hacia abajo para que los datos muestren el historial completo de incidentes para cada paciente por separado (aunque no todos los pacientes están presentes durante todos los días, no estoy seguro de si eso importa).

Me gustaría usar lme4 en R para modelar la estructura autorregresiva dentro de cada paciente, pero algunos Google encuentran la cita "lme4 no está configurado para tratar con estructuras autorregresivas". Incluso si lo fuera, no estoy seguro de entender cómo escribir el código de todos modos.

En caso de que alguien se dé cuenta, hice una pregunta como esta hace un tiempo, son diferentes conjuntos de datos con diferentes problemas, aunque en realidad resolver este problema ayudará con eso (alguien sugirió que use métodos mixtos anteriormente, pero esto de la autorregresión me ha hecho no estoy seguro de cómo hacer esto).

Así que estoy un poco atrapado y perdido para ser honesto. Cualquier ayuda recibida con gratitud!

r mixed-model autocorrelation panel-data

— Chris Beeley
fuente

Estoy lidiando con un problema similar, supongo que puede usarlo pgmmdesde el paquete plm , pero como su variable de respuesta es binaria, no sé exactamente cómo hacerlo. Tal vez otros puedan elaborar ... (Y sí, tiene razón: entiendo que siempre que tenga una variable endógena, en este caso el valor rezagado, no puede usar REML para estimar porque está sesgado, por lo que debe usar GMM .)

— teucer

Aquí hay una idea que conecta su variable dependiente binaria a una variable continua no observada; una conexión que puede permitirle aprovechar el poder de los modelos de series temporales para variables continuas.

Definir:

$V_{w,t} = 1$ $w$ $t$

$P_{w,t}$ $w$ $t$

$P_{w,t}$

$V_{w,t} = \begin{cases} 1 & \mbox{if } P_{w,t} \ge \tau \\ 0 & \mbox{otherwise} \end{cases}$

dónde,

$\tau$

$P_{w,t}$ $P_{w,t}$

$P_{w,t} = \alpha_0 + \alpha_1 P_{w,t-1} + ... + \alpha_p P_{w,t-p}+ \beta n_{w,t} + \epsilon_t$

dónde,

$n_{w,t}$ $w$ $t$

$\beta$

$P_{w,t}$