Cada algoritmo que trata con datos de texto tiene un vocabulario. En el caso de word2vec, el vocabulario se compone de todas las palabras en el corpus de entrada, o al menos las que están por encima del umbral de frecuencia mínima.
Los algoritmos tienden a ignorar las palabras que están fuera de su vocabulario. Sin embargo, hay formas de replantear su problema de manera tal que esencialmente no hay palabras fuera del vocabulario.
Recuerde que las palabras son simplemente "tokens" en word2vec. Podrían ser ngrams o podrían ser letras. Una forma de definir su vocabulario es decir que cada palabra que aparece al menos X veces está en su vocabulario. Luego, las "sílabas" más comunes (ngramas de letras) se agregan a su vocabulario. Luego agrega letras individuales a su vocabulario.
De esta manera, puede definir cualquier palabra como
- Una palabra en tu vocabulario
- Un conjunto de sílabas en tu vocabulario.
- Un conjunto combinado de letras y sílabas en tu vocabulario