Estoy investigando varias técnicas utilizadas en la agrupación de documentos y me gustaría aclarar algunas dudas sobre PCA (análisis de componentes principales) y LSA (análisis semántico latente).
Lo primero: ¿cuáles son las diferencias entre ellos? Sé que en PCA, la descomposición SVD se aplica a la matriz de covarianza de términos, mientras que en LSA es la matriz de documentos a término. ¿Hay algo mas?
Segundo: ¿cuál es su papel en el procedimiento de agrupación de documentos? De lo que he leído hasta ahora, deduzco que su propósito es la reducción de la dimensionalidad, la reducción del ruido y la incorporación de relaciones entre términos en la representación. Después de ejecutar PCA o LSA, se aplican algoritmos tradicionales como k-means o métodos aglomerativos en el espacio de término reducido y se utilizan medidas de similitud típicas, como la distancia cosenoidal. Por favor corrígeme si estoy equivocado.
Tercero: ¿importa si los vectores de término TF / IDF se normalizan antes de aplicar PCA / LSA o no? ¿Y deberían normalizarse nuevamente después de eso?
Cuarto: supongamos que he realizado algunos clusters en el término espacio reducido por LSA / PCA. Ahora, ¿cómo debo asignar etiquetas a los grupos de resultados? Dado que las dimensiones no corresponden a palabras reales, es un problema bastante difícil. La única idea que se me ocurre es calcular los centroides para cada grupo utilizando vectores de términos originales y seleccionando términos con pesos superiores, pero no suena muy eficiente. ¿Hay algunas soluciones específicas para este problema? No pude encontrar nada.
Estaré muy agradecido por aclarar estos problemas.