Estoy buscando diseñar un sistema que, dado un párrafo de texto, pueda clasificarlo e identificar el contexto:
- Está entrenado con párrafos de texto generados por el usuario (como comentarios / preguntas / respuestas)
- Se etiquetará cada elemento del conjunto de entrenamiento. Entonces, por ejemplo, ("categoría 1", "párrafo de texto")
- Habrá cientos de categorías.
¿Cuál sería el mejor enfoque para construir dicho sistema? He estado buscando algunas opciones diferentes y la siguiente es una lista de posibles soluciones. ¿Es Word2Vec / NN la mejor solución en este momento?
- Red tensorial neuronal recursiva alimentada con datos promediados de Word2Vec
- RNTN y el vector de párrafo ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- TF-IDF utilizado en una red de creencias profundas
- TF-IDF y regresión logística
- Bolsa de palabras y clasificación ingenua de Bayes