Estoy usando el proceso Gaussiano (GP) para la regresión.
En mi problema, es bastante común que dos o más puntos de datos estén cerca uno del otro, relativamente a la longitud escalas del problema. Además, las observaciones pueden ser extremadamente ruidosas. Para acelerar los cálculos y mejorar la precisión de la medición , parece natural fusionar / integrar grupos de puntos que están cerca uno del otro, siempre que me interesen las predicciones en una escala de longitud mayor.
Me pregunto cuál es una forma rápida pero semi-de principios de hacer esto.
Si dos puntos de datos se superponen perfectamente, , y el ruido de observación (es decir, la probabilidad) es gaussiano, posiblemente heterocedastic pero conocido , la forma natural de proceder parece fusionarlos en un único punto de datos con:
, para .
Valor observado que es un promedio de los valores observados ponderado por su precisión relativa: . y(1),y(2) ˉ y =σ 2 y ( → x ( 2 ) )
Ruido asociado con la observación igual a: .
Sin embargo, ¿cómo debería fusionar dos puntos cercanos pero que no se superponen?
Creo que aún debería ser un promedio ponderado de las dos posiciones, nuevamente usando la confiabilidad relativa. La razón es un argumento de centro de masa (es decir, piense en una observación muy precisa como una pila de observaciones menos precisas).
Para misma fórmula que la anterior.
Para el ruido asociado a la observación, me pregunto si, además de la fórmula anterior, debo agregar un término de corrección al ruido porque estoy moviendo el punto de datos. Esencialmente, obtendría un aumento en la incertidumbre relacionada con y (respectivamente, varianza de señal y escala de longitud de la función de covarianza). No estoy seguro de la forma de este término, pero tengo algunas ideas tentativas sobre cómo calcularlo dada la función de covarianza. ℓ 2
Antes de continuar, me preguntaba si ya había algo allí afuera; y si esto parece ser una forma sensata de proceder, o si hay mejores métodos rápidos .
Lo más cercano que pude encontrar en la literatura es este artículo: E. Snelson y Z. Ghahramani, Sparse Gaussian Processes using Pseudo-input , NIPS '05; pero su método está (relativamente) involucrado, requiriendo una optimización para encontrar las pseudo-entradas.