Antecedentes : quiero clasificar las áreas residenciales de una ciudad en grupos en función de sus características socioeconómicas, incluida la densidad de unidades de vivienda, la densidad de población, el área de espacios verdes, el precio de la vivienda, el número de escuelas / centros de salud / guarderías, etc. Quiero entender en cuántos grupos diferentes se pueden dividir las áreas residenciales y cuáles son sus características únicas. Esta información podría facilitar la planificación de la ciudad.
Basado en algunos ejemplos (cf., esta publicación de blog: PCA y K-means Clustering of Delta Aircraft ), descubrí que la forma de hacer el análisis es:
Primero haga el análisis de PCA.
Determine el número de grupos únicos (grupos) en función de los resultados de PCA (p. Ej., Utilizando el método de "codo" o, alternativamente, el número de componentes que explican del 80 al 90% de la varianza total).
Después de determinar el número de agrupaciones, aplique la agrupación k-means para hacer la clasificación.
Mis preguntas: parecía que la cantidad de componentes de PCA está relacionada con el análisis de clústeres. Entonces, eso es cierto, si, por ejemplo, encontramos que 5 componentes de PCA explican más del 90% de la variación de todas las características, entonces aplicaríamos el agrupamiento k-means y obtendríamos 5 grupos. Entonces, ¿los 5 grupos corresponden exactamente a los 5 componentes en el análisis de PCA?
En otras palabras, supongo que mi pregunta es: ¿Cuál es la conexión entre el análisis de PCA y la agrupación de k-means?
Actualizaciones: Gracias a las entradas de Emre, xeon y Kirill. Entonces las respuestas actuales:
Hacer PCA antes del análisis de agrupación también es útil para reducir la dimensionalidad como un extractor de características y visualizar / revelar agrupaciones.
Hacer PCA después de la agrupación puede validar el algoritmo de agrupación (referencia: análisis de componentes principales del núcleo ).
La PCA a veces se aplica para reducir la dimensionalidad del conjunto de datos antes de la agrupación. Sin embargo, Yeung y Ruzzo (2000) mostraron que la agrupación con las variables de la PC en lugar de las originales no necesariamente mejora la calidad de la agrupación. En particular, las primeras PC (que contienen la mayor parte de la variación en los datos) no capturan necesariamente la mayor parte de la estructura del clúster.
- Yeung, Ka Yee y Walter L. Ruzzo. Un estudio empírico sobre análisis de componentes principales para agrupar datos de expresión génica. Informe técnico, Departamento de Informática e Ingeniería, Universidad de Washington, 2000. ( pdf )
Parecía que PCA es necesario antes de un análisis de agrupación en dos pasos . Basado en Ibes (2015), en el que se realizó un análisis de conglomerados utilizando los factores identificados en el PCA.
- Ibes, Dorothy C. Una clasificación multidimensional y análisis de equidad de un sistema de parques urbanos: una metodología novedosa y aplicación de estudios de caso. Landscape and Urban Planning , Volumen 137, mayo de 2015, páginas 122–137.