Tengo un conjunto de archivos que consta de puntos seleccionados al azar de un conjunto de datos, cada archivo pertenece a una clase en particular. Cada fila en estos archivos contiene las coordenadas en el espacio n del punto. Me gustaría comparar las distribuciones en n-space de cada uno de estos archivos, y me inspira la prueba de KS para comparar histogramas. Por lo que he leído, este método no se extiende bien a los datos multivariados. Anteriormente había usado PCA, pero toda mi variación colapsó en una sola dimensión ruidosa y los métodos de agrupamiento fueron inútiles.
Mi pregunta: ¿hay alguna razón por la que no debería usar un promedio de los valores de KS en el histograma para cada una de las n dimensiones como una métrica de la bondad del ajuste? ¿Existe un mejor método para comparar estas distribuciones?