Estoy intentando realizar la agrupación a nivel de documento. Construí la matriz de frecuencia de término-documento y estoy tratando de agrupar estos vectores de alta dimensión usando k-means. En lugar de agrupar directamente, lo que hice fue aplicar primero la descomposición vectorial singular de LSA (Análisis semántico latente) para obtener las matrices U, S, Vt, seleccioné un umbral adecuado usando el diagrama de pantalla y apliqué el agrupamiento en las matrices reducidas (específicamente Vt porque me da una información de documento conceptual) que parecía estar dando buenos resultados.
Escuché que algunas personas dicen que SVD (descomposición vectorial singular) es un agrupamiento (mediante el uso de la medida de similitud de coseno, etc.) y no estaba seguro de si podría aplicar k-means en la salida de SVD. Pensé que era lógicamente correcto porque SVD es una técnica de reducción de dimensionalidad, me da un montón de nuevos vectores. k-means, por otro lado, tomará el número de grupos como entrada y dividirá estos vectores en el número especificado de grupos. ¿Es defectuoso este procedimiento o hay formas de mejorarlo? ¿Alguna sugerencia?