Tengo datos para una red de estaciones meteorológicas en los Estados Unidos. Esto me da un marco de datos que contiene fecha, latitud, longitud y algunos valores medidos. Suponga que los datos se recopilan una vez al día y son impulsados por el clima a escala regional (no, no vamos a entrar en esa discusión).
Me gustaría mostrar gráficamente cómo los valores medidos simultáneamente se correlacionan en el tiempo y el espacio. Mi objetivo es mostrar la homogeneidad regional (o la falta de ella) del valor que se está investigando.
Conjunto de datos
Para empezar, tomé un grupo de estaciones en la región de Massachusetts y Maine. Seleccioné sitios por latitud y longitud de un archivo de índice que está disponible en el sitio FTP de NOAA.
Inmediatamente ves un problema: hay muchos sitios que tienen identificadores similares o están muy cerca. FWIW, los identifico usando los códigos USAF y WBAN. Al profundizar en los metadatos, vi que tienen diferentes coordenadas y elevaciones, y los datos se detienen en un sitio y luego comienzan en otro. Entonces, como no sé nada mejor, tengo que tratarlos como estaciones separadas. Esto significa que los datos contienen pares de estaciones muy cercanas entre sí.
Analisis preliminar
Intenté agrupar los datos por mes calendario y luego calcular la regresión de mínimos cuadrados ordinarios entre diferentes pares de datos. Luego trazo la correlación entre todos los pares como una línea que conecta las estaciones (a continuación). El color de la línea muestra el valor de R2 del ajuste OLS. La figura luego muestra cómo los más de 30 puntos de datos de enero, febrero, etc. están correlacionados entre diferentes estaciones en el área de interés.
He escrito los códigos subyacentes para que la media diaria solo se calcule si hay puntos de datos cada período de 6 horas, por lo que los datos deben ser comparables en todos los sitios.
Problemas
Desafortunadamente, simplemente hay demasiados datos para tener sentido en una parcela. Eso no se puede solucionar reduciendo el tamaño de las líneas.
Intenté trazar las correlaciones entre los vecinos más cercanos de la región, pero eso se convierte en un desastre muy rápidamente. Las siguientes facetas muestran la red sin valores de correlación, utilizando
La red parece ser demasiado compleja, por lo que creo que necesito encontrar una manera de reducir la complejidad o aplicar algún tipo de núcleo espacial.
Tampoco estoy seguro de cuál es la métrica más adecuada para mostrar la correlación, pero para la audiencia prevista (no técnica), el coeficiente de correlación de OLS podría ser el más simple de explicar. Es posible que necesite presentar alguna otra información como el gradiente o el error estándar también.
Preguntas
Estoy aprendiendo mi camino en este campo y R al mismo tiempo, y agradecería sugerencias sobre:
- ¿Cuál es el nombre más formal para lo que estoy tratando de hacer? ¿Hay algunos términos útiles que me permitan encontrar más literatura? Mis búsquedas están dibujando espacios en blanco para lo que debe ser una aplicación común.
- ¿Existen métodos más apropiados para mostrar la correlación entre múltiples conjuntos de datos separados en el espacio?
- ... en particular, ¿métodos fáciles de mostrar visualmente?
- ¿Alguno de estos está implementado en R?
- ¿Alguno de estos enfoques se presta a la automatización?