¿Cómo se comparan dos procesos gaussianos?

La divergencia de Kullback-Leibler es una métrica para comparar dos funciones de densidad de probabilidad, pero ¿qué métrica se utiliza para comparar dos GP e ? $X$ $Y$

gaussian-process metric

— Pushkar
fuente

d (X, Y) = E [sup_{t} | X (t) - Y (t) |]

$d(X,Y)=\mathbb{E}\left[ \sup_t |X(t)-Y(t)| \right]$

— Zen

@ Zen: si tienes tiempo, me interesa saber más sobre esta métrica de distancia.

— Neil G

Hola neil No sé mucho al respecto. Por favor, mira mi respuesta a continuación.

— Zen

Respuestas:

Observe que la distribución de los procesos gaussianos $\mathcal{X}\to\mathbb{R}$ es la extensión del gaussiano multivariante para posiblemente infinito $\mathcal{X}$ . Por lo tanto, puede utilizar la divergencia KL entre las distribuciones de probabilidad GP integrando over $\mathbb{R}^\mathcal{X}$ :

D_{K L} (P | Q) = \int_{R^{X}} \log \frac{d P}{d Q} d P .

$D_{KL}(P|Q)=\int_{\mathbb{R}^\mathcal{X}} \log \frac{dP}{dQ} dP\,.$

Puede usar métodos MC para aproximar numéricamente esta cantidad sobre un discretizado $\mathcal{X}$ muestreando repetidamente los procesos de acuerdo con su distribución GP. No sé si la velocidad de convergencia es suficientemente buena ...

Observe que si es finito con , entonces retrocede a la divergencia KL habitual para distribuciones normales multivariadas: $\mathcal{X}$ $|\mathcal{X}|=n$

D_{K L} (G P (μ_{1}, K_{1}), G P (μ_{2}, K_{2})) = \frac{1}{2} (t r (K_{2}^{- 1} K_{1}) + (μ_{2} - μ_{1})^{⊤} K_{2}^{- 1} (μ_{2} - μ_{1}) - n + \log \frac{| K_{2} |}{| K_{1} |})

$D_{KL}\big(\mathcal{GP}(\mu_1,K_1), \mathcal{GP}(\mu_2,K_2)\big) = \frac 1 2 \Big(tr(K_2^{-1}K_1) + (\mu_2\!-\!\mu_1)^\top K_2^{-1}(\mu_2\!-\!\mu_1)-n+\log\frac{|K_2|}{|K_1|}\Big)$

— Emile
fuente

¿Cómo puedo calcular dos medias (mu1 y mu2) que mencionaste? ¿O debería tomarlos igual a cero como de costumbre para el proceso gaussiano?

— Marat Zakirov

Recuerde que si es un proceso gaussiano con función media función de covarianza , entonces, para cada , el vector aleatorio tiene una distribución normal multivariada con vector medio y matriz de covarianza , donde hemos usado la abreviatura común . $X:T\times \Omega\to\mathbb{R}$ $m$ $K$ $t_1,\dots,t_k\in T$ $(X(t_1),\dots,X(t_k))$ $(m(t_1),\dots,m(t_k))$ $\Sigma=(\sigma_{ij})=(K(t_i,t_j))$ $X(t)=X(t,\,\cdot\,)$

Cada realización es una función real cuyo dominio es el conjunto de índices . Supongamos que . Dados dos procesos gaussianos e , una distancia común entre dos realizaciones e es. Por lo tanto, parece natural definir la distancia entre los dos procesos e como $X(\,\cdot\,,\omega)$ $T$ $T=[0,1]$ $X$ $Y$ $X(\,\cdot\,,\omega)$ $Y(\,\cdot\,,\omega)$ $\sup_{t\in[0,1]} |X(t,\omega) - Y(t,\omega)|$ $X$ $Y$

d (X, Y) = E [sup_{t \in [0, 1]} | X (t) - Y (t) |] . (*)

$d(X,Y) = \mathbb{E}\!\left[\sup_{t\in[0,1]} \left| X(t) - Y(t)\right|\right] \, . \qquad (*)$ No sé si hay una expresión analítica para esta distancia, pero creo que puedes calcular una aproximación de Monte Carlo de la siguiente manera. Arregle una cuadrícula fina , y extraiga muestras y de los vectores normales aleatorias y , respectivamente, para . Aproximadamente por

0 \leq t_{1} < \dots < t_{k} \leq 1

$0\leq t_1<\dots<t_k\leq 1$

(x_{i 1}, \dots, x_{i k})

$(x_{i1},\dots,x_{ik})$

(y_{i 1}, \dots, y_{i k})

$(y_{i1},\dots,y_{ik})$

(X (t_{1}), \dots, X (t_{k}))

$(X(t_1),\dots,X(t_k))$

(Y (t_{1}), \dots, Y (t_{k}))

$(Y(t_1),\dots,Y(t_k))$

i = 1, \dots, N

$i=1,\dots,N$

d (X, Y)

$d(X,Y)$

\frac{1}{N} \sum_{i = 1}^{N} max_{1 \leq j \leq k} | x_{i j} - y_{i j} | .

$\frac{1}{N} \sum_{i=1}^N \max_{1\leq j\leq k} |x_{ij}-y_{ij}| \, .$

— zen
fuente

¿Cómo muestras de cada vector? Si solo muestra las medias en cada uno de los GP, no tendrá en cuenta las variaciones. De lo contrario, deberá idear una técnica de muestreo que sea consistente.

— pushkar

Este es un excelente recurso: gaussianprocess.org/gpml/chapters

— Zen

También puede leer todas las respuestas a esta pregunta: stats.stackexchange.com/questions/30652/…

— Zen

Tenga en cuenta que esto no es una distancia ya que . Como el KL compara dos distribuciones y no dos realizaciones, la distancia de Zen entre dos GP debe definirse como , y tenemos que para no degenerado proceso gaussiana .

d (X, X) \neq 0

$d(X,X) \neq 0$

d (G_{1}, G_{2}) = E_{X \sim G_{1}, Y \sim G_{2}} [sup_{t} | X (t) - Y (t) |]

$d(G_1,G_2)=\mathbb{E}_{X\sim G_1, Y\sim G_2}[\sup_t |X(t)-Y(t)|]$

E_{X \sim G, Y \sim G} sup_{t} | X (t) - Y (t) | > 0

$\mathbb{E}_{X\sim G, Y\sim G} \sup_t |X(t)-Y(t)| > 0$

G

$G$

— Emile

@Emile: ¿cómo es que usa la definición ?

d (X, X) \neq 0

$d(X,X)\neq 0$

(*)

$(*)$

— Zen