Estoy usando indexación semántica latente para encontrar similitudes entre documentos (¡ gracias, JMS! )
Después de la reducción de dimensiones, probé la agrupación de k-means para agrupar los documentos en grupos, lo que funciona muy bien. Pero me gustaría ir un poco más lejos y visualizar los documentos como un conjunto de nodos, donde la distancia entre dos nodos es inversamente proporcional a su similitud (los nodos que son muy similares están muy juntos).
Me sorprende que no pueda reducir con precisión una matriz de similitud a un gráfico bidimensional ya que mis datos son> 2 dimensiones. Entonces mi primera pregunta: ¿hay una forma estándar de hacer esto?
¿Podría reducir mis datos a dos dimensiones y luego trazarlos como los ejes X e Y, y eso sería suficiente para un grupo de ~ 100-200 documentos? Si esta es la solución, ¿es mejor reducir mis datos a 2 dimensiones desde el principio, o hay alguna forma de elegir las dos "mejores" dimensiones de mis datos multidimensionales?
Estoy usando Python y la biblioteca gensim si eso hace la diferencia.