Podría ayudar dar un poco más de una visión general de MMD.
En general, MMD se define por la idea de representar distancias entre distribuciones como distancias entre incrustaciones medias de características. Eso es, digamos que tenemos distribuciones y sobre un conjunto . El MMD está definido por un mapa de características , donde es lo que se llama un espacio de Hilbert del núcleo de reproducción. En general, el MMD es
PQX φ:X→HHMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
Como ejemplo, podríamos tener y . En ese caso:
por lo que este MMD es solo la distancia entre las medias de las dos distribuciones. Las distribuciones coincidentes como esta coincidirán con sus medias, aunque pueden diferir en su variación u otras formas.X=H=Rdφ(x)=xMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
Su caso es ligeramente diferente: tenemos y , con , donde es una matriz . Entonces tenemos
Esta MMD es la diferencia entre dos proyecciones diferentes de la media. Si el mapeo contrario no es invertible,X=RdH=Rpφ(x)=A′xAd×pMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
p<dA′ que la anterior: no distingue entre algunas distribuciones que hace la anterior.
También puedes construir distancias más fuertes. Por ejemplo, si y usa , el MMD se convierte en , y puede distinguir no solo distribuciones con diferentes medios sino también con diferentes variaciones.X=Rφ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
Y puede ser mucho más fuerte que eso: si asigna a un espacio Hilbert del núcleo de reproducción general, entonces puede aplicar el truco del núcleo para calcular el MMD, y resulta que muchos núcleos, incluido el núcleo Gaussiano, conducen al MMD siendo cero si y solo las distribuciones son idénticas.φ
Específicamente, dejando que , obtenga
que puede estimar directamente con muestras.k(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Actualización: aquí es de donde viene el "máximo" en el nombre.
El mapa de características asigna a un espacio Hilbert del núcleo de reproducción. Estos son espacios de funciones y satisfacen una propiedad clave (llamada propiedad de reproducción ): para cualquier .φ:X→H⟨f,φ(x)⟩H=f(x)f∈H
En el ejemplo más simple, con , vemos cada como la función correspondiente a alguna , por . Entonces la propiedad de reproducción debería tener sentido.X=H=Rdφ(x)=xf∈Hw∈Rdf(x)=w′x⟨f,φ(x)⟩H=⟨w,x⟩Rd
En entornos más complejos, como un núcleo gaussiano, es una función mucho más complicada, pero la propiedad de reproducción aún se mantiene.f
Ahora, podemos dar una caracterización alternativa de la MMD:
La segunda línea es un hecho general sobre las normas en los espacios de Hilbert:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
supf:∥f∥≤1⟨f,g⟩H=∥g∥ se logra mediante . El cuarto depende de una condición técnica conocida como integrabilidad de Bochner, pero es cierto, por ejemplo, para núcleos limitados o distribuciones con soporte limitado. Luego, al final, usamos la propiedad de reproducción.f=g/∥g∥
Esta última línea es la razón por la que se llama "máxima discrepancia media": es la máxima, sobre las funciones de prueba en la unidad de bola de , de la diferencia media entre las dos distribuciones.fH