Google Trends devuelve datos semanales, así que tengo que encontrar una manera de combinarlos con mis datos diarios / mensuales.
Lo que he hecho hasta ahora es dividir cada serie en datos diarios, por ejemplo:
desde:
2013-03-03 - 2013-03-09 37
a:
2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 2013-03-08 37 2013-03-09 37
Pero esto está agregando mucha complejidad a mi problema. Estaba tratando de predecir búsquedas en Google a partir de los valores de los últimos 6 meses, o 6 valores en datos mensuales. Los datos diarios implicarían un trabajo en 180 valores pasados. (Tengo 10 años de datos, así que 120 puntos en datos mensuales / 500+ en datos semanales / 3500+ en datos diarios)
El otro enfoque sería "fusionar" datos diarios en datos semanales / mensuales. Pero surgen algunas preguntas de este proceso. Algunos datos pueden promediarse porque su suma representa algo. Lluvia, por ejemplo, la cantidad de lluvia en una semana dada será la suma de las cantidades de cada día que compone las semanas.
En mi caso, estoy tratando con precios, tasas financieras y otras cosas. Para los precios, es común en mi campo tener en cuenta el volumen intercambiado, por lo que los datos semanales serían un promedio ponderado. Para las tasas financieras es un poco más complejo ya que algunas fórmulas están involucradas para construir tasas semanales a partir de las tasas diarias. Por lo demás, no sé las propiedades subyacentes. Creo que esas propiedades son importantes para evitar indicadores sin sentido (un promedio de tasas fiables sería una falta de sentido, por ejemplo).
Entonces tres preguntas:
Para propiedades conocidas y desconocidas, ¿cómo debo proceder para pasar de datos diarios a semanales / mensuales?
Siento que dividir datos semanales / mensuales en datos diarios como lo he hecho es algo incorrecto porque estoy introduciendo cantidades que no tienen sentido en la vida real. Entonces, casi la misma pregunta:
Para propiedades conocidas y desconocidas, ¿cómo debo proceder para pasar de datos semanales / mensuales a diarios?
Por último, pero no menos importante: cuando se dan dos series de tiempo con diferentes pasos de tiempo, ¿qué es mejor: usar el paso de tiempo más bajo o el más grande? Creo que esto es un compromiso entre la cantidad de datos y la complejidad del modelo, pero no veo ningún argumento sólido para elegir entre esas opciones.
Editar: si conoce una herramienta (en R Python incluso Excel) para hacerlo fácilmente, sería muy apreciada.