El problema que estoy abordando es categorizar textos cortos en varias clases. Mi enfoque actual es utilizar frecuencias de término ponderadas tf-idf y aprender un clasificador lineal simple (regresión logística). Esto funciona razonablemente bien (alrededor del 90% de macro F-1 en el conjunto de prueba, casi el 100% en el conjunto de entrenamiento). Un gran problema son las palabras invisibles / n-gramas.
Estoy tratando de mejorar el clasificador agregando otras características, por ejemplo, un vector de tamaño fijo calculado usando similitudes de distribución (según lo calculado por word2vec) u otras características categóricas de los ejemplos. Mi idea era simplemente agregar las características a las características de entrada dispersas de la bolsa de palabras. Sin embargo, esto resulta en un peor rendimiento en el conjunto de prueba y entrenamiento. Las características adicionales por sí mismas dan alrededor del 80% de F-1 en el conjunto de prueba, por lo que no son basura. Escalar las características no ayudó también. Mi opinión actual es que este tipo de características no se mezclan bien con las características de la bolsa (escasa) de palabras.
Entonces la pregunta es: suponiendo que las características adicionales brinden información adicional, ¿cuál es la mejor manera de incorporarlas? ¿Podría entrenar clasificadores separados y combinarlos en algún tipo de trabajo de conjunto (esto probablemente tendría el inconveniente de que no podría capturarse ninguna interacción entre las características de los diferentes clasificadores)? ¿Hay otros modelos más complejos que debería considerar?