Quiero usar la asignación de Dirichlet latente para un proyecto y estoy usando Python con la biblioteca gensim. Después de encontrar los temas, me gustaría agrupar los documentos usando un algoritmo como k-means (Idealmente, me gustaría usar uno bueno para la superposición de grupos, por lo que cualquier recomendación es bienvenida). Logré obtener los temas pero están en forma de:
0.041 * Ministro + 0.041 * Clave + 0.041 * momentos + 0.041 * controvertido + 0.041 * Prime
Para aplicar un algoritmo de agrupamiento y corregirme si me equivoco, creo que debería encontrar una manera de representar cada palabra como un número usando tfidf o word2vec.
¿Tiene alguna idea de cómo podría "quitar" la información textual de, por ejemplo, una lista, para hacerlo y luego volver a colocarla para hacer la multiplicación adecuada?
Por ejemplo, tal como lo veo si la palabra Ministro tiene un peso tfidf de 0.042 y así sucesivamente para cualquier otra palabra dentro del mismo tema, debería calcular algo como:
0.041 * 0.42 + ... + 0.041 * tfidf (Prime) y obtenga un resultado que luego se utilizará para agrupar los resultados.
Gracias por tu tiempo.