Sí, puede beneficiarse de modelos pre-entrenados. El más famoso es el modelo entrenado GoogleNewsData que puedes encontrar aquí.
Vectores pre-entrenados de palabras y frases https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit?usp=sharing
Luego puede cargar los vectores en formato binario en su modelo usando gensim como se muestra a continuación.
>>> model = Word2Vec.load_word2vec_format('/tmp/vectors.txt', binary=False) # C text format
>>> model = Word2Vec.load_word2vec_format('/tmp/vectors.bin', binary=True) # C binary format
Aquí hay un modelo prefabricado diferente para Wikipedia en inglés:
https://github.com/idio/wiki2vec/raw/master/torrents/enwiki-gensim-word2vec-1000-nostem-10cbow.torrent
Fuente: https://github.com/idio/wiki2vec/
Usar un modelo preconstruido
Get python 2.7
Install gensim: pip install gensim
uncompress downloaded model: tar -xvf model.tar.gz
Load model in gensim:
from gensim.models import Word2Vec
model = Word2Vec.load("path/to/word2vec/en.model")
model.similarity('woman', 'man')
También puede usar Stanford NLP Glove
Aquí hay una gran compilación de modelos word2vec previamente entrenados.
Algunos modelos adicionales pre-entrenados:
Más información sobre gensim y código aquí: https://radimrehurek.com/gensim/models/word2vec.html
Foro de Quora con preguntas similares