Estoy buscando una buena terminología para describir lo que estoy tratando de hacer, para que sea más fácil buscar recursos.
Entonces, supongamos que tengo dos grupos de puntos A y B, cada uno asociado a dos valores, X e Y, y quiero medir la "distancia" entre A y B, es decir, qué tan probable es que se muestrearon de la misma distribución (Puedo suponer que las distribuciones son normales). Por ejemplo, si X e Y están correlacionados en A pero no en B, las distribuciones son diferentes.
Intuitivamente, obtendría la matriz de covarianza de A, y luego vería cuán probable es que cada punto en B encaje allí, y viceversa (probablemente usando algo como la distancia de Mahalanobis).
Pero eso es un poco "ad-hoc", y probablemente haya una forma más rigurosa de describir esto (por supuesto, en la práctica tengo más de dos conjuntos de datos con más de dos variables; estoy tratando de identificar cuál de mis conjuntos de datos son valores atípicos).
¡Gracias!