Me pregunto cómo etiquetar (etiquetar) oraciones / párrafos / documentos con doc2vec en gensim, desde un punto de vista práctico.
¿Necesita tener cada oración / párrafo / documento con su propia etiqueta única (por ejemplo, "Sent_123")? Esto parece útil si desea decir "qué palabras u oraciones son más similares a una oración específica única llamada" Sent_123 ".
¿Se puede repetir las etiquetas según el contenido? Por ejemplo, si cada oración / párrafo / documento trata sobre un determinado artículo del producto (y hay varias oraciones / párrafos / documentos para un artículo del producto dado), puede etiquetar las oraciones en función del artículo y luego calcular la similitud entre una palabra o un oración y esta etiqueta (que supongo que sería como un promedio de todas esas oraciones que tenían que ver con el artículo del producto)?