Distancia del motor de la Tierra (EMD) entre dos gaussianos

¿Existe una fórmula de forma cerrada para (o algún tipo de límite en) el EMD entre y ? $x_1\sim N(\mu_1, \Sigma_1)$ $x_2 \sim N(\mu_2, \Sigma_2)$

normal-distribution distance

— ifog
fuente

De acuerdo con en.wikipedia.org/wiki/Earth_mover%27s_distance, el EMD es el mismo que la distancia de Mallows o Wasserstein, por lo que puede probar eso en Google.

— kjetil b halvorsen

Puede encontrar este documento útil: vldb.org/pvldb/vol5/p205_brianeruttenberg_vldb2012.pdf

— jojer

$\DeclareMathOperator\EMD{\mathrm{EMD}} \DeclareMathOperator\E{\mathbb{E}} \DeclareMathOperator\Var{Var} \DeclareMathOperator\N{\mathcal{N}} \DeclareMathOperator\tr{\mathrm{tr}} \newcommand\R{\mathbb R}$ La distancia del motor de la tierra se puede escribir como $\EMD(P, Q) = \inf \E \lVert X - Y \rVert$ , donde el infimum se toma sobre todas las distribuciones conjuntas de $X$ y $Y$ con marginales $X \sim P$ , $Y \sim Q$ . Esto también se conoce como la primera distancia de Wasserstein , que es $W_p = \inf \left( \E \lVert X - Y \rVert^p \right)^{1/p}$ con el mismo infimum.

Deje $X \sim P = \N(\mu_x, \Sigma_x)$ , $Y \sim Q = \N(\mu_y, \Sigma_y)$ .

E ‖ X - Y ‖ \geq ‖ E (X - Y) ‖ = ‖ μ_{x} - μ_{y} ‖,

$\E \lVert X - Y \rVert \ge \lVert \E (X - Y) \rVert = \lVert \mu_x - \mu_y \rVert,$ inferior: según la desigualdad de Jensen, dado que las normas son convexas,

por lo que el EMD es siempre al menos la distancia entre los medios (para cualquier distribución).

$W_2$ superior basado en : Nuevamente por la desigualdad de Jensen, $\left( \E \lVert X - Y \rVert \right)^2 \le \E \lVert X - Y \rVert^2$ . Así $W_1 \le W_2$ . Pero Dowson y Landau (1982) establecen que

W_{2} (P, Q)^{2} = ‖ μ_{x} - μ_{y} ‖^{2} + t r (Σ_{x} + Σ_{y} - 2 (Σ_{x} Σ_{y})^{1 / 2}),

$W_2(P, Q)^2 = \lVert \mu_x - \mu_y \rVert^2 + \tr\left( \Sigma_x + \Sigma_y - 2 (\Sigma_x \Sigma_y)^{1/2} \right) ,$ dando un límite superior en

E M D = W_{1}

$\EMD = W_1$ .

Un límite superior más apretado: considere el acoplamiento Este es el mapa derivado por Knott y Smith (1984) , Sobre el mapeo óptimo de distribuciones , Journal of Optimization Theory and Applications, 43 (1) pp 39-49 como el mapeo óptimo para ; Vea también esta publicación de blog . Tenga en cuenta que y

\begin{aligned} X & \sim N (μ_{x}, Σ_{x}) \\ Y & = μ_{y} + \underset{A}{\underset{⏟}{Σ_{x}^{- \frac{1}{2}} {(Σ_{x}^{\frac{1}{2}} Σ_{y} Σ_{x}^{\frac{1}{2}})}^{\frac{1}{2}} Σ_{x}^{- \frac{1}{2}}}} (X - μ_{x}) . \end{aligned}

$\begin{align} X &\sim \N(\mu_x, \Sigma_x) \\ Y &= \mu_y + \underbrace{\Sigma_x^{-\frac12} \left( \Sigma_x^\frac12 \Sigma_y \Sigma_x^\frac12 \right)^\frac12 \Sigma_x^{-\frac12}}_A (X - \mu_x) .\end{align}$

W_{2}

$W_2$

A = A^{T}

$A = A^T$

\begin{aligned} E Y & = μ_{y} + A (E X - μ_{x}) = μ_{y} \\ Var Y & = A Σ_{x} A^{T} \\ = Σ_{x}^{- \frac{1}{2}} {(Σ_{x}^{\frac{1}{2}} Σ_{y} Σ_{x}^{\frac{1}{2}})}^{\frac{1}{2}} Σ_{x}^{- \frac{1}{2}} Σ_{x} Σ_{x}^{- \frac{1}{2}} {(Σ_{x}^{\frac{1}{2}} Σ_{y} Σ_{x}^{\frac{1}{2}})}^{\frac{1}{2}} Σ_{x}^{- \frac{1}{2}} \\ = Σ_{x}^{- \frac{1}{2}} (Σ_{x}^{\frac{1}{2}} Σ_{y} Σ_{x}^{\frac{1}{2}}) Σ_{x}^{- \frac{1}{2}} \\ = Σ_{y}, \end{aligned}

$\begin{align} \E Y &= \mu_y + A (\E X - \mu_x) = \mu_y \\ \Var Y &= A \Sigma_x A^T \\&= \Sigma_x^{-\frac12} \left( \Sigma_x^\frac12 \Sigma_y \Sigma_x^\frac12 \right)^\frac12 \Sigma_x^{-\frac12} \Sigma_x \Sigma_x^{-\frac12} \left( \Sigma_x^\frac12 \Sigma_y \Sigma_x^\frac12 \right)^\frac12 \Sigma_x^{-\frac12} \\&= \Sigma_x^{-\frac12} \left( \Sigma_x^\frac12 \Sigma_y \Sigma_x^\frac12 \right) \Sigma_x^{-\frac12} \\&= \Sigma_y ,\end{align}$ para que el acoplamiento sea válido.

La distancia es entonces , donde ahora que es normal con $\lVert X - Y \rVert$ $\lVert D \rVert$

\begin{aligned} D & = X - Y \\ = X - μ_{y} - A (X - μ_{x}) \\ = (I - A) X - μ_{y} + A μ_{x}, \end{aligned}

$\begin{align} D &= X - Y \\&= X - \mu_y - A (X - \mu_x) \\&= (I - A) X - \mu_y + A \mu_x ,\end{align}$

\begin{aligned} E D & = μ_{x} - μ_{y} \\ Var D & = (I - A) Σ_{x} (I - A)^{T} \\ = Σ_{x} + A Σ_{x} A - A Σ_{x} - Σ_{x} A \\ = Σ_{x} + Σ_{y} - Σ_{x}^{- \frac{1}{2}} {(Σ_{x}^{\frac{1}{2}} Σ_{y} Σ_{x}^{\frac{1}{2}})}^{\frac{1}{2}} Σ_{x}^{\frac{1}{2}} - Σ_{x}^{\frac{1}{2}} {(Σ_{x}^{\frac{1}{2}} Σ_{y} Σ_{x}^{\frac{1}{2}})}^{\frac{1}{2}} Σ_{x}^{- \frac{1}{2}} . \end{aligned}

$\begin{align} \E D &= \mu_x - \mu_y \\ \Var D &= (I - A) \Sigma_x (I - A)^T \\&= \Sigma_x + A \Sigma_x A - A \Sigma_x - \Sigma_x A \\&= \Sigma_x + \Sigma_y - \Sigma_x^{-\frac12} \left( \Sigma_x^\frac12 \Sigma_y \Sigma_x^\frac12 \right)^\frac12 \Sigma_x^{\frac12} - \Sigma_x^{\frac12} \left( \Sigma_x^\frac12 \Sigma_y \Sigma_x^\frac12 \right)^\frac12 \Sigma_x^{-\frac12} .\end{align}$

Por lo tanto, un límite superior para es . Desafortunadamente, una forma cerrada para esta expectativa es sorprendentemente desagradable de escribir para las normales multivariadas generales: vea esta pregunta , así como esta . $W_1(P, Q)$ $\E \lVert D \rVert$

Si la varianza de termina siendo esférica (por ejemplo, si , , entonces la varianza de convierte en ), la primera pregunta da la respuesta en términos de un polinomio de Laguerre generalizado. $D$ $\Sigma_x = \sigma_x^2 I$ $\Sigma_y = \sigma_y^2 I$ $D$ $(\sigma_x - \sigma_y)^2 I$

En general, tenemos un límite superior simple para basado en la desigualdad de Jensen, derivado, por ejemplo, en esa primera pregunta: $\E \lVert D \rVert$

\begin{aligned} {(E ‖ D ‖)}^{2} & \leq E ‖ D ‖^{2} \\ = ‖ μ_{x} - μ_{y} ‖^{2} + t r (Σ_{x} + Σ_{y} - A Σ_{x} - Σ_{x} A) \\ = ‖ μ_{x} - μ_{y} ‖^{2} + t r (Σ_{x}) + t r (Σ_{y}) - 2 t r (Σ_{x}^{- \frac{1}{2}} {(Σ_{x}^{\frac{1}{2}} Σ_{y} Σ_{x}^{\frac{1}{2}})}^{\frac{1}{2}} Σ_{x}^{\frac{1}{2}}) \\ = ‖ μ_{x} - μ_{y} ‖^{2} + t r (Σ_{x}) + t r (Σ_{y}) - 2 t r ({(Σ_{x}^{\frac{1}{2}} Σ_{y} Σ_{x}^{\frac{1}{2}})}^{\frac{1}{2}}) \\ = W_{2} (P, Q)^{2} . \end{aligned}

$\begin{align} \left( \E \lVert D \rVert \right)^2 &\le \E \lVert D \rVert^2 \\&= \lVert \mu_x - \mu_y \rVert^2 + \tr\left( \Sigma_x + \Sigma_y - A \Sigma_x - \Sigma_x A \right) \\&= \lVert \mu_x - \mu_y \rVert^2 + \tr\left( \Sigma_x \right) + \tr\left( \Sigma_y \right) - 2 \tr\left( \Sigma_x^{-\frac12} \left(\Sigma_x^\frac12 \Sigma_y \Sigma_x^\frac12 \right)^\frac12 \Sigma_x^{\frac12} \right) \\&= \lVert \mu_x - \mu_y \rVert^2 + \tr\left( \Sigma_x \right) + \tr\left( \Sigma_y \right) - 2 \tr\left( \left(\Sigma_x^\frac12 \Sigma_y \Sigma_x^\frac12 \right)^\frac12 \right) \\&= W_2(P, Q)^2 .\end{align}$ La igualdad al final se debe a que las matrices y son similares , por lo que tienen los mismos valores propios y, por lo tanto, sus raíces cuadradas tienen el mismo rastro.

Σ_{x} Σ_{y}

$\Sigma_x \Sigma_y$

Σ_{x}^{\frac{1}{2}} Σ_{y} Σ_{x}^{\frac{1}{2}} = Σ_{x}^{- \frac{1}{2}} (Σ_{x} Σ_{y}) Σ_{x}^{\frac{1}{2}}

$\Sigma_x^\frac12 \Sigma_y \Sigma_x^\frac12 = \Sigma_x^{-\frac12} (\Sigma_x \Sigma_y) \Sigma_x^{\frac12}$

Esta desigualdad es estricta siempre que no sea degenerada, que es la mayoría de los casos cuando . $\lVert D \rVert$ $\Sigma_x \ne \Sigma_y$

Una conjetura : Tal vez este límite superior más cercano, , es ajustado. Por otra parte, tuve un límite superior diferente aquí durante mucho tiempo que que era apretado, que de hecho era más flojo que el , por lo que tal vez no deberías confiar demasiado en esta conjetura. :) $\E \lVert D \rVert$ $W_2$

— Dougal
fuente