¿Está permitido incluir el tiempo como predictor en modelos mixtos?

Siempre creí que el tiempo no debería usarse como un predictor en las regresiones (incluidas las de gam) porque, entonces, uno simplemente "describiría" la tendencia misma. Si el objetivo de un estudio es encontrar parámetros ambientales como la temperatura, etc., que expliquen la variación en, digamos, la actividad de un animal, entonces me pregunto, ¿cómo puede ser útil el tiempo? como proxy para parámetros no medidos?

Aquí se pueden ver algunas tendencias en el tiempo sobre los datos de actividad de las marsopas portuarias: -> ¿Cómo manejar las brechas en una serie de tiempo al hacer GAMM?

mi problema es: cuando incluyo el tiempo en mi modelo (medido en días julianos), entonces el 90% de todos los demás parámetros se vuelven insignificantes (la contracción ts más suave de mgcv los expulsa). Si dejo tiempo fuera, entonces algunos de ellos son significativos ...

La pregunta es: ¿se permite el tiempo como predictor (¿tal vez incluso necesario?) O está arruinando mi análisis?

Muchas gracias de antemano

r time-series mixed-model nonlinear-regression

— Jens
fuente

El tiempo es permitido; si es necesario dependerá de lo que intente modelar? El problema que tiene es que tiene covariables que juntas parecen encajar en la tendencia de los datos, lo que el Tiempo puede hacer igual de bien pero con menos grados de libertad, por lo tanto, se eliminan en lugar del Tiempo.

Si el interés es modelar el sistema, la relación entre la respuesta y las covariables a lo largo del tiempo, en lugar de modelar cómo varía la respuesta a lo largo del tiempo, entonces no incluya el Tiempo como una covariable. Si el objetivo es modelar el cambio en el nivel medio de la respuesta, incluya el Tiempo pero no la covariable. Por lo que dices, parece que quieres lo primero, no lo último, y no debes incluir el tiempo en tu modelo. (Pero considere la información adicional a continuación).

Sin embargo, hay un par de advertencias. Para que la teoría se mantenga, los residuos deben ser iid (o id si relaja la suposición de independencia utilizando una estructura de correlación). Si está modelando la respuesta en función de las covariables y no modelan adecuadamente ninguna tendencia en los datos, entonces los residuos tendrán una tendencia, que viola los supuestos de la teoría, a menos que la estructura de correlación ajustada pueda hacer frente a esta tendencia.

Por el contrario, si está modelando la tendencia solo en la respuesta (solo incluyendo el tiempo), puede haber una variación sistemática en los residuos (sobre la tendencia ajustada) que no se explica por la tendencia (tiempo), y esto también podría violar los supuestos para los residuos En tales casos, es posible que deba incluir otras covariables para representar los residuos iid

¿Por qué es esto un problema? Bueno, cuando está probando si el componente de tendencia, por ejemplo, es significativo, o si los efectos de las covariables son significativos, la teoría utilizada asumirá que los residuales son iid. Si no lo son, los supuestos no se cumplirán y las Los valores p estarán sesgados.

El punto de todo esto es que necesita modelar todos los diversos componentes de los datos de modo que los residuos sean idóneos para la teoría que utiliza, para probar si los componentes ajustados son significativos, para que sean válidos.

Como ejemplo, considere los datos estacionales y queremos ajustar un modelo que describa la variación a largo plazo de los datos, la tendencia. Si solo modelamos la tendencia y no la variación cíclica estacional, no podemos probar si la tendencia ajustada es significativa porque los residuos no serán idóneos. Para tales datos, necesitaríamos ajustar un modelo con un componente estacional y una tendencia componente y un modelo nulo que contenía solo el componente estacional. Luego, compararíamos los dos modelos usando una prueba de razón de probabilidad generalizada para evaluar la importancia de la tendencia ajustada. Esto se hace utilizando anova()los $lmecomponentes de los dos modelos equipados con gamm().

— Gavin Simpson
fuente

Estimado Gavin, muchas gracias por sus muy útiles comentarios. Espero poder ayudarte pronto también;) cuando pruebo el GLRT con anova me dice "objeto 'fijo" no encontrado ":(

— Jens

@Jens la llamada debería ser anova(mod1$lme, mod2$lme). Si está ajustando un modelo no gaussiano, entonces esto podría no funcionar ya que no hay una verdadera probabilidad logarítmica en los métodos PQL, preste atención a la casi probabilidad en el nombre PQL. Esta es una razón para usar gamm4 , pero luego debe hacer algo con respecto a la estructura de correlación, ya que lme4 no lo permite.

— Gavin Simpson