Soy desarrollador web y estadístico novato.
Mis datos se parecen a esto
Subject Week x1 x2 x3 x4 x5 y1
A 1 .5 .6 .7 .8 .7 10
B 1 .3 .6 .2 .1 .3 8
C 1 .3 .1 .2 .3 .2 6
A 2 .1 .9 1.5 .8 .7 5
B 2 .3 .6 .3 .1 .3 2
D 2 .3 .1 .4 .3 .5 10
Estoy tratando de predecir y1 como producto de las variables x. Sin embargo, tengo razones para creer que puede haber un retraso en el efecto de las múltiples variables x en y1, es decir, las variables x de la semana 1 para el sujeto A influyen en y1 para el sujeto A en la semana 2.
Tenga en cuenta que no todas las asignaturas tendrán puntos de datos para cada semana (de hecho, la mayoría no). Los sujetos tenderán a tener puntos de datos para, por ejemplo, la semana 1, 2, 3, 4, luego se dejarán y no volverán a aparecer hasta la semana 7,8,9. Estoy dispuesto a restringir mi análisis a los puntos de datos donde tenemos datos de las N semanas previas dada mi hipótesis sobre el retraso.
Como dije, soy un novato y no estoy seguro de la mejor manera de manejar un conjunto de datos de esta forma. Espero llevar a cabo este análisis en R, Python o alguna combinación de ambos. No creo que las variables x de la semana actual no tengan ningún efecto. Creo que tendrán algún efecto, quizás mayor que las semanas anteriores. Solo creo que las semanas anteriores tendrán algún efecto.
Espero que haya dos o tres semanas de retraso. Para dar un poco de contexto, el análisis que estoy tratando aquí se relaciona con juzgar la calidad del tráfico en línea. Cada semana obtengo un puntaje que califica la calidad de un determinado flujo de usuarios que envío a un sitio web determinado. Estoy tratando de encontrar métricas secundarias, como la distribución del navegador, el porcentaje de clics duplicados, etc., que me permitirán predecir cuál será la puntuación antes de tiempo.