En una configuración de regresión, puede probar si la agregación simple es la opción correcta. Suponga que tiene datos mensuales y datos diarios (con los días fijos en un mes). Suponga que está interesado en una regresión:YtXτm
Yt=α+βX¯t+ut,(1)
donde
X¯t=1m∑h=0m−1Xtm−h.
Aquí asumimos que para cada mes las observaciones diarias son . En este caso asumimos que cada día tiene el mismo peso, lo que claramente es una restricción. Entonces podemos suponer que el modelo más general es válido:tX30(t−1)+1,...,X30t
Yt=α+βX¯(w)t+ut,(2)
con
X(w)t=∑h=1m−1whXtm−h.
Hay muchos artículos que exploran diferentes opciones posibles de . Por lo general, se supone que , para alguna función que depende de los parámetros . Este tipo de modelo de regresión se denomina regresión MIDAS (Muestreo de datos mixtos).w h = g ( h , α ) g αwhwh=g(h,α)gα
El modelo (2) anida el modelo (1) para que sea posible probar la hipótesis de que . En este artículo se propone una prueba de este tipo (soy uno de los autores, perdón por el complemento descarado, también escribí un paquete R midasr para estimar y probar las regresiones MIDAS donde se implementa esta prueba).wh=1m
En una configuración de no regresión, hay resultados que muestran que la agregación puede cambiar las propiedades de las series de tiempo. Por ejemplo, si agrega procesos AR (1) que tienen memoria a corto plazo (la correlación entre dos observaciones de la serie temporal desaparece rápidamente cuando aumenta la distancia entre ellas), puede obtener un proceso con memoria a largo plazo.
En resumen, la respuesta es que la validez de la aplicación de estadísticas sobre datos agregados es una cuestión estadística. Dependiendo del modelo, puede construir una hipótesis sobre si es una aplicación válida o no.