Cuáles son estos procedimientos
Aunque OLS y GWR comparten muchos aspectos de su formulación estadística, se usan para diferentes propósitos:
- OLS modela formalmente una relación global de un tipo particular. En su forma más simple, cada registro (o caso) en el conjunto de datos consta de un valor, x, establecido por el experimentador (a menudo llamado "variable independiente") y otro valor, y, que se observa (la "variable dependiente" ) OLS supone que y es aproximadamenterelacionado con x de una manera particularmente simple: a saber, existen números (desconocidos) 'a' y 'b' para los cuales a + b * x será una buena estimación de y para todos los valores de x en los que el experimentador pueda estar interesado . "Buena estimación" reconoce que los valores de y pueden y variarán de cualquier predicción matemática porque (1) realmente lo hacen (la naturaleza rara vez es tan simple como una ecuación matemática) y (2) y se mide con alguna error. Además de estimar los valores de ayb, OLS también cuantifica la cantidad de variación en y. Esto le da a OLS la capacidad de establecer la significancia estadística de los parámetros ay b.
Aquí hay un ajuste de OLS:
- GWR se utiliza para explorar las relaciones locales . En esta configuración todavía hay (x, y) pares, pero ahora (1) típicamente, se observan ambos xey, ninguno de los dos puede ser determinado previamente por un experimentador, y (2) cada registro tiene una ubicación espacial, z . Para cualquier ubicación, z (no necesariamente una donde los datos están disponibles), GWR aplica el algoritmo OLS a los valores de datos vecinos para estimar una relación específica de ubicación entre y y x en la forma y = a (z) + b (z) *X. La notación "(z)" enfatiza que los coeficientes ayb varían entre las ubicaciones. Como tal, GWR es una versión especializada de suavizadores ponderados localmenteen el que solo se utilizan las coordenadas espaciales para determinar vecindarios. Su salida se utiliza para sugerir cómo los valores de x e y varían en una región espacial. Es de destacar que a menudo no hay razón para elegir cuál de 'x' e 'y' debería desempeñar el papel de variable independiente y variable dependiente en la ecuación, pero cuando cambia estos roles, ¡ los resultados cambiarán ! Esta es una de las muchas razones por las que GWR debe considerarse exploratorio, una ayuda visual y conceptual para comprender los datos, en lugar de un método formal.
Aquí hay una suavidad ponderada localmente. Observe cómo puede seguir los "meneos" aparentes en los datos, pero no pasa exactamente por cada punto. (Se puede hacer que pase por los puntos, o que siga movimientos más pequeños, cambiando una configuración en el procedimiento, exactamente como se puede hacer que GWR siga datos espaciales más o menos exactamente cambiando la configuración en su procedimiento).
Intuitivamente, piense en OLS como una forma rígida (como una línea) en el diagrama de dispersión de pares (x, y) y GWR como permitiendo que esa forma se mueva arbitrariamente.
Elegir entre ellos
En el presente caso, aunque no está claro qué podrían significar "dos bases de datos distintas", parece que usar OLS o GWR para "validar" una relación entre ellos puede ser inapropiado. Por ejemplo, si las bases de datos representan observaciones independientes de la misma cantidad en el mismo conjunto de ubicaciones, entonces (1) OLS probablemente sea inapropiado porque tanto x (los valores en una base de datos) como y (los valores en la otra base de datos) deberían ser concebido como variable (en lugar de pensar en x como fijo y representado con precisión) y (2) GWR está bien para explorar la relación entre x e y, pero no puede usarse para validarcualquier cosa: está garantizado encontrar relaciones, no importa qué. Además, como se señaló anteriormente, los roles simétricos de "dos bases de datos" indican que cualquiera podría elegirse como 'x' y el otro como 'y', lo que lleva a dos posibles resultados de GWR que se garantiza que diferirán.
Aquí hay una suavidad ponderada localmente de los mismos datos, invirtiendo los roles de x e y. Compare esto con el gráfico anterior: observe cuán más pronunciado es el ajuste general y también cómo difiere en los detalles.
Se requieren diferentes técnicas para establecer que dos bases de datos proporcionan la misma información, o para evaluar su sesgo relativo o precisión relativa. La elección de la técnica depende de las propiedades estadísticas de los datos y del propósito de la validación. Como ejemplo, las bases de datos de mediciones químicas se compararán típicamente usando técnicas de calibración .
Interpretando el yo de Moran
Es difícil decir qué significa un "Moran's I para el modelo GWR". Supongo que la estadística I de Moran puede haberse calculado para los residuos de un cálculo de GWR. (Los residuales son las diferencias entre los valores reales y ajustados). El I de Moran es una medida global de correlación espacial. Si es pequeño, sugiere que las variaciones entre los valores de y y los ajustes de GWR de los valores de x tienen poca o ninguna correlación espacial. Cuando GWR se "ajusta" a los datos (esto implica decidir qué constituye realmente un "vecino" de cualquier punto), es de esperar una baja correlación espacial en los residuales porque GWR (implícitamente) explota cualquier correlación espacial entre x e y valores en su algoritmo.