Soy nuevo en el análisis de series de tiempo, y agradecería cualquier sugerencia sobre la mejor manera de abordar el siguiente problema de regresión de series de tiempo: Tengo mediciones de temperatura por hora en aproximadamente 20 ubicaciones en un sitio durante tres años, junto con información auxiliar estática (pendiente, elevación, aspecto, cubierta del dosel). El sitio tiene un tamaño de varias hectáreas, y los dispositivos de registro de temperatura se extienden por todo el sitio a lo largo de un par de transectos, a intervalos de ~ 20-50 m. A aproximadamente 1 km de distancia, tengo datos por hora de una estación meteorológica, que también proporciona mediciones de la velocidad del viento, la dirección del viento, la humedad, la iluminación solar, etc.
Me gustaría poder predecir la temperatura (mín, máx, media) en el sitio (en general) utilizando solo los datos de la estación meteorológica; está en su lugar semipermanentemente, mientras que los registradores de temperatura en el sitio solo estuvieron en su lugar durante 3 años. Así que, en esencia, tengo múltiples variables independientes (temperatura, humedad, viento, etc.) en una ubicación (la estación meteorológica), pero una sola variable dependiente (temperatura) en múltiples ubicaciones, cada una de las cuales también tiene varios atributos invariantes en el tiempo: pendiente, elevación, aspecto, etc.
Estoy más interesado en predecir los mínimos y máximos diarios en el sitio en general, en lugar de las temperaturas por hora en cada lugar de registro de temperatura en el sitio. Aunque, esas predicciones por hora sin duda serían de valor.
Mi enfoque inicial ha sido calcular el promedio diario, el mínimo y los máximos de las temperaturas en el sitio, y usarlos como variables dependientes en regresiones lineales simples, utilizando las mediciones disponibles en la estación meteorológica como variables independientes. Esto funciona razonablemente bien (R2> 0,50 con 2 predictores), pero parece demasiado simplista por muchas razones, e imagino que debe haber formas más sofisticadas (y poderosas) de hacerlo.
Por un lado, no estoy haciendo nada explícito sobre la naturaleza de la serie temporal de los valores diarios en la regresión, y aunque la temperatura mínima o promedio de un día para otro puede no estar tan correlacionada como lo es de una hora a la siguiente. A continuación, me pregunto sobre los problemas con la independencia de estos datos diarios (o ciertamente por hora, si intentara predecir las temperaturas por hora). En segundo lugar, debido a las preocupaciones de tener múltiples mediciones de temperatura algo correlacionadas en todo el sitio (son mucho más similares entre sí que con los datos de la estación meteorológica), simplemente estoy usando la media, el mínimo o el máximo de todas las mediciones en el sitio , en lugar de incluir los datos de cada ubicación de medición individual directamente. Pero esto también me impide usar la información auxiliar invariante en el tiempo de cada ubicación de medición de temperatura (pendiente, elevación, aspecto, cubierta del dosel), que presumiblemente explicará una buena parte de las diferencias de temperatura entre las ubicaciones en el sitio. En tercer lugar, debido a las preocupaciones con la regresión dominada por el ciclo diurno muy fuerte en las temperaturas, solo miro los valores diarios en lugar de los horarios.
¡Le agradeceríamos cualquier sugerencia sobre mejores formas de hacerlo (especialmente en R), o dónde comenzar a buscar! Me doy cuenta de que hay una gran cantidad de paquetes R que tratan con series de tiempo, pero tengo problemas para encontrar el mejor lugar para comenzar con este tipo de problema, ya que ninguno de los ejemplos que he visto parece reflejar la situación en la que estoy tratando de modelar aquí.
Actualización: pensando en esto un poco más, no me queda claro si los modelos de series temporales son realmente apropiados aquí porque no estoy interesado en predecir lo que sucederá en algún momento específico en el futuro. Más bien, simplemente estoy interesado en cómo las temperaturas en el sitio están relacionadas con las temperaturas (y otras variables ambientales) en la estación meteorológica. Pensé que quizás el análisis de series de tiempo sería valioso porque me preocupaba que las mediciones de temperatura posteriores pudieran no ser lo suficientemente independientes. Ciertamente, la temperatura de una hora depende en gran medida de la hora anterior, pero la dependencia es más débil para los datos diarios. En cualquier caso, ¿es la correlación temporal / no independencia de los datos de series de tiempo una preocupación válida que debe abordarse si uno no está interesado en una predicción de series de tiempo?