L2Distancia , como se sugiere en un comentario del usuario39665. Esto es:
Tenga en cuenta que, como se ve por ejemplo en la sección 8.1.8 del libro de recetas de matriz :
para que esto pueda evaluarse fácilmente en tiempo .L2(P,Q)2=∫(p(x)−q(x))2dx=∫(∑iαipi(x)−∑jβjqj(x))2dx=∑i,i′αiαi′∫pi(x)pi′(x)dx+∑j,j′βjβj′∫qj(x)qj′(x)dx−2∑i,jαiβj∫pi(x)qj(x)dx.
∫ N ( x ; μ , Σ ) N ( x ; μ ′ , Σ ′ )∫N(x;μ,Σ)N(x;μ′,Σ′)dx=N(μ;μ′,Σ+Σ′)
O(mn)
La máxima discrepancia media (MMD) con un núcleo gaussiano RBF. Esta es una distancia genial, aún no muy conocida entre la comunidad estadística, que requiere un poco de matemática para definirla.
Dejando
defina el espacio de Hilbert como el espacio de Hilbert del núcleo de reproducción correspondiente a : .k(x,y):=exp(−12σ2∥x−y∥2),
Hkk(x,y)=⟨φ(x),φ(y)⟩H
Defina el núcleo del mapa medio como
K(P,Q)=EX∼P,Y∼Qk(X,Y)=⟨EX∼Pφ(X),EY∼Qφ(Y)⟩.
El MMD es entonces
MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥=K(P,P)+K(Q,Q)−2K(P,Q)−−−−−−−−−−−−−−−−−−−−−−−−−√=supf:∥f∥H≤1EX∼Pf(X)−EY∼Qf(Y).
Para nuestras mezclas y , tenga en cuenta que
y de manera similar para y .PQK(P,Q)=∑i,jαiβjK(Pi,Qj)
K(P,P)K(Q,Q)
Resulta, usando trucos similares a los de , que es
L2K(N(μ,Σ),N(μ′,Σ′))(2πσ2)d/2N(μ;μ′,Σ+Σ′+σ2I).
Como , claramente esto converge a un múltiplo de la distancia . Sin embargo, normalmente querrá usar un diferente , uno en la escala de la variación de datos.σ→0L2σ
Los formularios cerrados también están disponibles para los núcleos polinomiales en el MMD; verk
Muandet, Fukumizu, Dinuzzo y Schölkopf (2012). Aprendizaje de distribuciones a través de máquinas de medición de soporte. En Avances en sistemas de procesamiento de información neuronal ( versión oficial ). arXiv: 1202.6504 .
Para ver muchas propiedades agradables de esta distancia, vea
Sriperumbudur, Gretton, Fukumizu, Schölkopf y Lanckriet (2010). Integraciones espaciales de Hilbert y métricas sobre medidas de probabilidad. Journal of Machine Learning Research, 11, 1517-1561 . arXiv: 0907.5309 .