He estado trabajando en datos entrenados para el algoritmo Word2vec. Como necesitamos que las palabras permanezcan como originales, no las escribimos en minúsculas en la fase de preprocesamiento. Por lo tanto, hay palabras con diferentes variaciones (por ejemplo, "Tierra" y "tierra").
La única forma en que puedo pensar es tomar el promedio de vectores para "Tierra" y "tierra" para crear un solo vector para representar la palabra. (Dado que las dimensiones del vector de características son similares)
¿Es este un método "aceptable"? Si no es así, ¿cuál podría ser una buena manera de manejar este problema?
Nota: Bajar todas las palabras en el preprocesamiento no es una opción por ahora.
Editar: la información sobre si las dimensiones de las características son verdaderamente lineales también sería útil.
Edición 2: Combina ambas respuestas patapouf_ai
y yazhi
dio los mejores resultados. ¿Cómo se combinan estos? El promedio ponderado mejoró los resultados, pero poner las frecuencias de las palabras a través de una función sigmoidea escalada dio los mejores resultados, porque usar las frecuencias de las palabras de manera lineal les da más importancia de la que tienen.