Eso depende principalmente de la cantidad de "estado del arte" (SOTA) que desee en comparación con la profundidad que desea ir (juego de palabras ...).
Si puede vivir con incrustaciones de palabras poco profundas según lo provisto por word2vec, Glove o fastText, creo que Word Mover Distance (WMD [yes, realmente ...]) es una buena función para medir distancias de documentos (cortas) [1] . Incluso he visto varias computadoras portátiles Python en el pasado que proporcionan "tutoriales" para esta medida de distancia, por lo que es realmente fácil comenzar.
Sin embargo, si está más interesado en SOTA, tendrá que analizar el aprendizaje profundo (representación de secuencias), utilizando algún tipo de red recurrente que aprenda un modelo de tema a partir de sus oraciones. Además de integrar incrustaciones de palabras (semánticas), estos enfoques van más allá del enfoque [bueno, antiguo] de "bolsa de palabras" al aprender representaciones de temas usando las dependenciasde las palabras en la oración [s]. Por ejemplo, el Modelo de tema recurrente de nivel de oración (SLRTM) es un modelo profundo, recurrente bastante interesante basado en las ideas del LDA más tradicional (de Blei et al.) O LSA (Landauer et al.), Pero es solo un arXiv papel (por lo que todas las advertencias predeterminadas de "tomar esto con un grano de sal" sobre investigaciones no revisadas por pares deberían aplicarse ...) [2]. No obstante, el documento tiene muchos indicadores y referencias excelentes para comenzar su investigación en caso de que quiera ir por este agujero de conejo.
Finalmente, debería aclararse que no afirmo que estos son los métodos acordados de mejor desempeño para la bolsa de palabras y los modelos de secuencia, respectivamente. Pero deberían acercarte bastante a lo que sea el "mejor" SOTA, y al menos deberían ser un excelente punto de partida.
[1] Matt J. Kusner y col. De incrustaciones de palabras a distancias de documentos. Actas de la 32ª Conferencia Internacional sobre Aprendizaje Automático, JMLR, 2015.
[2] Fei Tian y col. SLRTM: Dejar que los temas hablen por sí mismos. arXiv 1604.02038, 2016.