¿Hay alguna manera de determinar qué características / variables del conjunto de datos son las más importantes / dominantes dentro de una solución de clúster de k-means?
¿Hay alguna manera de determinar qué características / variables del conjunto de datos son las más importantes / dominantes dentro de una solución de clúster de k-means?
Respuestas:
Una forma de cuantificar la utilidad de cada característica (= variable = dimensión), del libro Burns, Robert P. y Richard Burns. Métodos y estadísticas de investigación empresarial utilizando SPSS. Sage, 2008. ( espejo ), la utilidad se define por el poder discriminatorio de las características para distinguir a los grupos.
Por lo general, examinamos las medias para cada grupo en cada dimensión utilizando ANOVA para evaluar qué tan distintos son nuestros grupos. Idealmente, obtendríamos medios significativamente diferentes para la mayoría, si no todas las dimensiones, utilizadas en el análisis. La magnitud de los valores de F realizados en cada dimensión es una indicación de cuán bien discrimina la dimensión respectiva entre los grupos.
Otra forma sería eliminar una característica específica y ver cómo esto impacta los índices de calidad internos . A diferencia de la primera solución, tendría que rehacer el agrupamiento para cada característica (o conjunto de características) que desea analizar.
FYI:
Puedo pensar en otras dos posibilidades que se centran más en qué variables son importantes para qué grupos.
Clasificación de múltiples clases. Considere los objetos que pertenecen a los miembros del grupo x de la misma clase (p. Ej., Clase 1) y los objetos que pertenecen a otros miembros del grupo de una segunda clase (p. Ej., Clase 2). Entrene a un clasificador para predecir la membresía de la clase (por ejemplo, clase 1 vs. clase 2). Los coeficientes variables del clasificador pueden servir para estimar la importancia de cada variable en la agrupación de objetos para agrupar x . Repita este enfoque para todos los demás grupos.
Similitud de variables intragrupo. Para cada variable, calcule la similitud promedio de cada objeto con su centroide. Una variable que tiene una gran similitud entre un centroide y sus objetos es probablemente más importante para el proceso de agrupación que una variable que tiene poca similitud. Por supuesto, la magnitud de similitud es relativa, pero ahora las variables pueden clasificarse según el grado en que ayudan a agrupar los objetos en cada grupo.