Graficar visualmente datos multidimensionales


17

Tengo un conjunto de datos con 16 variables, y después de la agrupación por kmeans, deseo trazar los dos grupos.

¿Qué parcelas sugiere para representar visualmente los dos grupos?

Respuestas:


23

No hay una única visualización correcta. Depende de qué aspecto de los grupos desee ver o enfatizar.

¿Quieres ver cómo contribuye cada variable? Considere una gráfica de coordenadas paralelas.

Coordenadas paralelas para dos grupos y medios de grupo

¿Desea ver cómo se distribuyen los clústeres a lo largo de los componentes principales? Considere un biplot (en 2D o 3D):

Biplot de racimo

¿Desea buscar valores atípicos de clúster en todas las dimensiones? Considere un diagrama de dispersión de la distancia desde el centro del grupo 1 contra la distancia desde el centro del grupo 2. (Por definición de K significa que cada grupo caerá en un lado de la línea diagonal).

ingrese la descripción de la imagen aquí

¿Desea ver las relaciones por pares en comparación con el agrupamiento? Considere una matriz de diagrama de dispersión coloreada por clúster.

ingrese la descripción de la imagen aquí

¿Desea ver una vista resumida de las distancias del clúster? Considere una comparación de cualquier visualización de distribución, como histogramas, diagramas de violín o diagramas de caja.

ingrese la descripción de la imagen aquí


2

Las pantallas multivariadas son complicadas, especialmente con esa cantidad de variables. Tengo dos sugerencias

Si hay ciertas variables que son particularmente importantes para la agrupación, o son sustancialmente interesantes, puede usar una matriz de diagrama de dispersión y mostrar las relaciones bivariadas entre sus variables interesantes. Incluso podría usar diagramas de dispersión mejorados (por ejemplo, usar formas con un tamaño proporcional a una tercera variable) para agregar más dimensionalidad

Alternativamente, podría usar un diagrama de resorte que fue desarrollado para mostrar datos de alta dimensión que exhiben agrupamiento. Tenga en cuenta que nunca he visto esto en la literatura con la que estoy familiarizado, pero creo que es una forma muy interesante de mostrar datos multivariados. La siguiente cita es donde originalmente se propuso la trama.

Hoffman, PE y col. (1997) Minería de datos visuales y analíticos de ADN. En las actas de la visualización IEEE. Phoenix, AZ, págs. 437-441.

Y aquí es donde originalmente encontré mención de ello.

Ahora, advertencia justa, no he podido encontrar una implementación de springplots fuera de Orange. Por otra parte, no he buscado tan duro!

Supongo que sus datos tienen un valor real y son continuos, si son discretos o no son intervalos, etc., no creo que ninguna de las parcelas sea útil.


1
Hay una implementación de Radviz para R: cran.r-project.org/web/packages/Radviz/vignettes/…
pmav99

1

Puede usar la función fviz_cluster de factoextra pacakge en R. Mostrará el diagrama de dispersión de sus datos y los diferentes colores de los puntos serán el clúster.

A mi entender, esta función realiza el PCA y luego elige los dos mejores PC y los traza en 2D.

Cualquier sugerencia / mejora en mi respuesta son bienvenidas.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.