Para una tarea de procesamiento de lenguaje natural (PNL), a menudo se usan vectores word2vec como incrustación de las palabras. Sin embargo, puede haber muchas palabras desconocidas que no son capturadas por los vectores word2vec simplemente porque estas palabras no se ven con la suficiente frecuencia en los datos de entrenamiento (muchas implementaciones usan un recuento mínimo antes de agregar una palabra al vocabulario). Este puede ser especialmente el caso con el texto de, por ejemplo, Twitter, donde las palabras a menudo están mal escritas.
¿Cómo deben manejarse esas palabras desconocidas cuando se modela una tarea de PNL como la predicción de sentimientos utilizando una red a largo plazo (LSTM)? Veo dos opciones:
- Agregar un token de 'palabra desconocida' al diccionario word2vec.
- Eliminar estas palabras desconocidas de modo que el LSTM ni siquiera sepa que la palabra estaba en la oración.
¿Cuál es la forma preferida de manejar estas palabras?