Me gustaría comparar la diferencia entre la misma palabra mencionada en diferentes fuentes. Es decir, cómo los autores difieren en el uso de palabras mal definidas, como "democracia".
Un breve plan fue
- Tome los libros que mencionan el término "democracia" como texto sin formato
- En cada libro, reemplace
democracy
condemocracy_%AuthorName%
- Entrenar a una
word2vec
modelo en estos libros - Calcule la distancia entre
democracy_AuthorA
,democracy_AuthorB
y otras menciones etiquetadas de "democracia"
Por lo tanto, la "democracia" de cada autor tiene su propio vector, que se utiliza para comparar.
Pero parece que word2vec
requiere mucho más que varios libros (cada palabra etiquetada aparece solo en un subconjunto de libros) para entrenar vectores confiables. La página oficial recomienda conjuntos de datos que incluyen miles de millones de palabras.
Solo quería preguntar qué tan grande debería ser el subconjunto de los libros de un autor para hacer tal inferencia word2vec
o herramientas alternativas, si están disponibles.
window
parámetro establece cuántas palabras en el contexto se utilizan para entrenar el modelo para su palabra w