Mi pregunta puede ser tonta. Así que me disculparé de antemano.
Estaba tratando de usar el modelo GLOVE pre-entrenado por el grupo Stanford NLP ( enlace ). Sin embargo, noté que mis resultados de similitud mostraron algunos números negativos.
Eso inmediatamente me llevó a mirar el archivo de datos de vectores de palabras. Aparentemente, se permitió que los valores en la palabra vectores fueran negativos. Eso explicaba por qué veía similitudes negativas de coseno.
Estoy acostumbrado al concepto de similitud coseno de los vectores de frecuencia, cuyos valores están delimitados en [0, 1]. Sé con certeza que el producto de puntos y la función coseno pueden ser positivos o negativos, dependiendo del ángulo entre vectores. Pero realmente me cuesta entender e interpretar esta semejanza negativa del coseno.
Por ejemplo, si tengo un par de palabras que dan una similitud de -0.1, ¿son menos similares que otro par cuya similitud es 0.05? ¿Qué hay de comparar la similitud de -0.9 a 0.8?
¿O debería mirar el valor absoluto de la diferencia de ángulo mínima de ? ¿Valor absoluto de las puntuaciones?
Muchas muchas gracias.
An angular-type similarity coefficient between two vectors. It is like correlation, only without centering the vectors.
La única diferencia entre los dos es que en las desviaciones de correlación (momentos), que se multiplican cruzada, son de la media, mientras que en las desviaciones de coseno son del 0 original, es decir, son los valores tal como son. .