Medición de la "distancia" entre dos distribuciones multivariadas


28

Estoy buscando una buena terminología para describir lo que estoy tratando de hacer, para que sea más fácil buscar recursos.

Entonces, supongamos que tengo dos grupos de puntos A y B, cada uno asociado a dos valores, X e Y, y quiero medir la "distancia" entre A y B, es decir, qué tan probable es que se muestrearon de la misma distribución (Puedo suponer que las distribuciones son normales). Por ejemplo, si X e Y están correlacionados en A pero no en B, las distribuciones son diferentes.

Intuitivamente, obtendría la matriz de covarianza de A, y luego vería cuán probable es que cada punto en B encaje allí, y viceversa (probablemente usando algo como la distancia de Mahalanobis).

Pero eso es un poco "ad-hoc", y probablemente haya una forma más rigurosa de describir esto (por supuesto, en la práctica tengo más de dos conjuntos de datos con más de dos variables; estoy tratando de identificar cuál de mis conjuntos de datos son valores atípicos).

¡Gracias!


No sé por qué, pero una prueba de Mantel apareció frente a mis ojos cuando leí tu publicación.
Roman Luštrik el

Respuestas:



16

Hmm, la distancia Bhattacharyya parece ser lo que estoy buscando, aunque la distancia Hellinger también funciona.


mencionas a Bhattacharyya y Helling y luego aceptas una respuesta hablando de KL ... Al final, ¿cuál fue tu elección y por qué?
Simon C.

1
Creo que fue una divergencia de KL, pero ... eso fue en 2010 y mi memoria está lejos de ser perfecta.
Emile

ahah sí, lo adiviné, pero gracias de todos modos
Simon C.

9

Heurístico

  • Forma Minkowski
  • Varianza media ponderada (WMV)

Estadísticas de prueba no paramétricas

  • 2 (Chi cuadrado)
  • Kolmogorov-Smirnov (KS)
  • Cramer / von Mises (CvM)

Divergencias de la teoría de la información

  • Kullback-Liebler (KL)
  • Jensen – Shannon divergencia (métrica)
  • Jeffrey-divergencia (numéricamente estable y simétrica)

Medidas de distancia al suelo

  • Intersección del histograma
  • Forma cuadrática (QF)
  • Distancia de movimiento de tierra (EMD)


0

Pocas medidas más de "diferencia estadística"

  • Prueba de permutación (por Fisher)
  • Teorema del límite central y teorema de Slutsky
  • Prueba de Mann-Whitney-Wilcoxin
  • Prueba de Anderson-Darling
  • Prueba de Shapiro-Wilk
  • Prueba de Hosmer-Lemeshow
  • Prueba de Kuiper
  • discrepancia de Stein kernelized
  • Jaccard similitud
  • Además, el agrupamiento jerárquico trata con medidas de similitud entre grupos. Las medidas más populares de similitud grupal son quizás el enlace único, el enlace completo y el enlace promedio.
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.