¿Cuáles son algunas formas estándar de calcular la distancia entre consultas de búsqueda individuales?

Hice una pregunta similar sobre la distancia entre "documentos" (artículos de Wikipedia, noticias, etc.). Hice esta pregunta por separado porque las consultas de búsqueda son considerablemente más pequeñas que los documentos y son mucho más ruidosas. Por lo tanto, no sé (y dudo) si las mismas métricas de distancia se usarían aquí.

Se prefieren las métricas de distancia léxica de vainilla o las métricas de distancia semántica de última generación, con mayor preferencia por esta última.

machine-learning nlp search

— Mate
fuente

Las consultas de búsqueda no son más ruidosas (hay muy pocas palabras en una consulta que no estén realmente relacionadas con la búsqueda), pero pueden contener errores ortográficos, ambigüedad, jerga y otras cosas que debe tratar por separado. Más allá de estos problemas, las consultas y los documentos pueden procesarse de la misma manera.

— amigo

tal vez pueda extraer vectores de palabras clave de las consultas y luego calcular la distancia entre esos vectores y cómo se define la similitud, creo que esta sigue siendo una pregunta abierta :)

— crazyminer

Ambas preguntas son amplias, subjetivas y requerirán un mantenimiento considerable para evitar quedar obsoletas. Dado que la comunidad aprecia ese tipo de preguntas, mantener una de ellas podría ser razonable, pero ciertamente no ambas, cuando esta discusión es un subconjunto apropiado de la otra. Revise ¿Qué tipo de preguntas debo evitar hacer?

— Aire

Gracias AirThomas! La publicación de ffriend ciertamente parece indicar que esto es claramente un duplicado. Veré qué puedo hacer al respecto.

— Matt

Respuestas:

Según mi experiencia, solo algunas clases de consultas pueden clasificarse en características léxicas (debido a la ambigüedad del lenguaje natural). En su lugar, puede intentar utilizar los resultados de búsqueda booleanos (sitios o segmentos de sitios, no documentos, sin clasificación) como características para la clasificación (en lugar de palabras). Este enfoque funciona bien en clases donde hay una gran ambigüedad léxica en una consulta pero existen muchos sitios buenos relevantes para la consulta (por ejemplo, películas, música, consultas comerciales, etc.).

Además, para la clasificación fuera de línea, puede hacer LSI en la matriz del sitio de consulta. Consulte el libro "Introducción a la recuperación de información" para obtener más información.

— Alx49
fuente

En una nota relacionada, encontré este documento relevante .

— Matt

La métrica de similitud de coseno hace un buen trabajo (si no perfecto) de controlar la longitud del documento, por lo que comparar la similitud de 2 documentos o 2 consultas utilizando la métrica de coseno y los pesos tf idf para las palabras debería funcionar bien en cualquier caso. También recomendaría hacer LSA primero en pesos tf idf, y luego calcular la distancia coseno \ similitudes.

Si está tratando de construir un motor de búsqueda, le recomendaría usar un motor de búsqueda de código abierto gratuito como solr o búsqueda elástica, o solo las bibliotecas de lucene sin procesar, ya que hacen la mayor parte del trabajo por usted y tienen buenos métodos incorporados para manejo de la consulta para documentar el problema de similitud.

— Simón
fuente