Como estás usando gensim, probablemente deberías usar su implementación doc2vec. doc2vec es una extensión de word2vec al nivel de frase, oración y documento. Es una extensión bastante simple, descrita aquí
http://cs.stanford.edu/~quocle/paragraph_vector.pdf
Gensim es agradable porque es intuitivo, rápido y flexible. ¡Lo mejor es que puedes tomar las incrustaciones de palabras pre-entrenadas de la página oficial de word2vec y la capa syn0 del modelo Doc2Vec de gensim está expuesta para que puedas sembrar las incrustaciones de palabras con estos vectores de alta calidad!
GoogleNews-vectors-negative300.bin.gz (como se vincula en el Código de Google )
Creo que gensim es definitivamente la herramienta más fácil (y hasta ahora la mejor) para incrustar una oración en un espacio vectorial.
Existen otras técnicas de oración a vector que la propuesta en el artículo de Le & Mikolov anterior. Socher y Manning de Stanford son sin duda dos de los investigadores más famosos que trabajan en esta área. Su trabajo se ha basado en el principio de composición: la semántica de la oración proviene de:
1. semantics of the words
2. rules for how these words interact and combine into phrases
Han propuesto algunos de estos modelos (cada vez más complejos) sobre cómo usar la composicionalidad para construir representaciones a nivel de oración.
2011: despliegue del codificador automático recursivo (muy comparativamente simple. Comience aquí si está interesado)
2012 - red neuronal matriz-vector
2013 - red de tensor neural
2015 - Tree LSTM
Sus documentos están disponibles en socher.org. Algunos de estos modelos están disponibles, pero aún así recomendaría doc2vec de gensim. Por un lado, el URAE 2011 no es particularmente poderoso. Además, viene pre-entrenado con pesos adecuados para parafrasear datos de noticias. El código que proporciona no le permite volver a entrenar la red. Tampoco puede intercambiar diferentes vectores de palabras, por lo que está atrapado con las incrustaciones pre-word2vec de 2011 de Turian. Estos vectores ciertamente no están en el nivel de word2vec o GloVe.
Todavía no he trabajado con el Tree LSTM, ¡pero parece muy prometedor!
tl; dr Sí, usa el doc2vec de gensim. ¡Pero existen otros métodos!