Idéntico significado, que producirá resultados idénticos para una clasificación entre un vector de similitud u y un conjunto de vectores V .
Tengo un modelo de espacio vectorial que tiene la medida de distancia (distancia euclidiana, similitud de coseno) y la técnica de normalización (ninguno, l1, l2) como parámetros. Según tengo entendido, los resultados de la configuración [coseno, ninguno] deberían ser idénticos o al menos realmente muy similares a [euclidiana, l2], pero no lo son.
En realidad, hay una buena posibilidad de que el sistema siga teniendo errores, ¿o tengo algún problema crítico con los vectores?
editar: Olvidé mencionar que los vectores se basan en el recuento de palabras de documentos en un corpus. Dado un documento de consulta (que también transformo en un vector de conteo de palabras), quiero encontrar el documento de mi corpus que es más similar a él.
Simplemente calcular su distancia euclidiana es una medida directa, pero en el tipo de tarea en la que trabajo, la similitud del coseno a menudo se prefiere como un indicador de similitud, porque los vectores que solo difieren en longitud todavía se consideran iguales. El documento con la menor similitud distancia / coseno se considera el más similar.