Texto-Clasificación-Problema: ¿Es Word2Vec / NN el mejor enfoque?

Estoy buscando diseñar un sistema que, dado un párrafo de texto, pueda clasificarlo e identificar el contexto:

Está entrenado con párrafos de texto generados por el usuario (como comentarios / preguntas / respuestas)
Se etiquetará cada elemento del conjunto de entrenamiento. Entonces, por ejemplo, ("categoría 1", "párrafo de texto")
Habrá cientos de categorías.

¿Cuál sería el mejor enfoque para construir dicho sistema? He estado buscando algunas opciones diferentes y la siguiente es una lista de posibles soluciones. ¿Es Word2Vec / NN la mejor solución en este momento?

Red tensorial neuronal recursiva alimentada con datos promediados de Word2Vec
RNTN y el vector de párrafo ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
TF-IDF utilizado en una red de creencias profundas
TF-IDF y regresión logística
Bolsa de palabras y clasificación ingenua de Bayes

— Shankar
fuente

¿Puedes aclarar qué tipo de categorías? ¿Será necesario poder manejar nuevas categorías y / o palabras invisibles? Los requisitos con respecto a términos poco frecuentes y categorías no vistas ayudarán al diseño del sistema.

— NBartley

Gracias @NBartley. Las palabras invisibles también serán de alta probabilidad. Los parámetros de entrada serán contenido generado por el usuario, por lo tanto, la posibilidad de nuevas palabras invisibles será muy alta. Las categorías se definirían, pero necesitaremos expandir la lista de categorías con el tiempo. Gracias

— Shankar

Debería consultar sense2vec también arxiv.org/abs/1511.06388 . En pocas palabras, se trata de incrustaciones de palabras combinadas con el etiquetado Part-Of-Speech. Se informa que hizo que las incrustaciones de palabras fueran más precisas al eliminar los homónimos. Sería interesante ver si también mejora el rendimiento en las tareas de clasificación.

— wacax

1) Max-Entropy (Regresión logística) en vectores TFIDF es un buen punto de partida para muchas tareas de clasificación de PNL.

2) Word2vec es definitivamente algo que vale la pena probar y comparar con el modelo 1. Sugeriría usar el sabor Doc2Vec para mirar oraciones / párrafos.

Quoc Le y Tomas Mikolov. Representaciones distribuidas de oraciones y documentos. http://arxiv.org/pdf/1405.4053v2.pdf

Gensim (python) tiene un bonito modelo Doc2vec.

— rushimg
fuente

Gracias @rushimg. Si las categorías están estrechamente relacionadas, es decir, el párrafo del texto que se usa como entrada tiene una gran cantidad de palabras comunes, ¿cuál de los dos enfoques sería mejor para comprender el contexto y diferenciar entre los dos?

— Shankar

Usaría el modelo Doc2Vec debido a que elimina la suposición de la bolsa de palabras del modelo max-ent. Si tf-idf se usa como características en el modelo max-ent, esto también reduciría el impacto de las palabras comunes. Creo que probar ambos métodos y ajustarlos sería el mejor curso de acción.

— rushimg