En inglés simple: tengo un modelo de regresión múltiple o ANOVA, pero la variable de respuesta para cada individuo es una función curvilínea del tiempo.
- ¿Cómo puedo saber cuál de las variables del lado derecho es responsable de las diferencias significativas en las formas o los desplazamientos verticales de las curvas?
- ¿Es este un problema de series de tiempo, un problema de medidas repetidas o algo completamente diferente?
- ¿Cuáles son las mejores prácticas para analizar dichos datos (preferiblemente en
R
, pero estoy abierto a usar otro software)?
En términos más precisos: Digamos que tengo un modelo pero es en realidad una serie de puntos de datos recopilados de mismo individuo en muchos puntos de tiempo , que se registraron como una variable numérica. El trazado de los datos muestra que para cada individuo es una función de tiempo cuadrática o cíclica cuyo desplazamiento vertical, forma o frecuencia (en el caso cíclico) podría depender significativamente de las covariables. Las covariables no cambian con el tiempo, es decir, un individuo tiene un peso corporal constante o un grupo de tratamiento durante el período de recopilación de datos.
Hasta ahora he intentado los siguientes R
enfoques:
Manova
Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME);
... donde
YT
hay una matriz cuyas columnas son los puntos de tiempo, 10 de ellas en este ejemplo, pero mucho más en los datos reales.Problema: esto trata el tiempo como un factor, pero los puntos de tiempo no coinciden exactamente para cada individuo. Además, hay muchos de ellos en relación con el tamaño de la muestra, por lo que el modelo se satura. Parece que se ignora la forma de la variable de respuesta a lo largo del tiempo.
Modelo mixto (como en Pinheiro y Bates, Modelos de efectos mixtos en S y S-Plus )
lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML')
... donde
ID
es un factor que agrupa los datos por individuo. En este ejemplo, la respuesta es cíclica a lo largo del tiempo, pero podría haber términos cuadráticos u otras funciones del tiempo.Problema: no estoy seguro de si cada término de tiempo es necesario (especialmente para términos cuadráticos) y cuáles son afectados por qué covariables.
- ¿Es
stepAIC()
un buen método para seleccionarlos? - Si elimina un término dependiente del tiempo, ¿también lo eliminará del
random
argumento? - ¿Qué
corEXP()
sucede si también uso una función de autocorrelación (como ) que toma una fórmula en elcorrelation
argumento, ¿debo hacer que la fórmula seacorEXP()
igual a la que está enrandom
o solo~1|ID
? - El
nlme
paquete rara vez se menciona en el contexto de series de tiempo fuera de Pinheiro y Bates ... ¿no se considera adecuado para este problema?
- ¿Es
Ajustar un modelo cuadrático o trigonométrico a cada individuo y luego usar cada coeficiente como variable de respuesta para regresión múltiple o ANOVA.
Problema: es necesaria una corrección de comparación múltiple. No puedo pensar en ningún otro problema que me haga sospechar que estoy pasando por alto algo.
Como se sugirió anteriormente en este sitio ( ¿Cuál es el término para una regresión de series de tiempo que tiene más de un predictor? ), Existen ARIMAX y modelos de función de transferencia / regresión dinámica .
Problema: los modelos basados en ARMA asumen tiempos discretos, ¿no? En cuanto a la regresión dinámica, lo escuché por primera vez hoy, pero antes de profundizar en otro método nuevo que podría no funcionar después de todo, pensé que sería prudente pedir consejo a las personas que han hecho esto antes.