Para una aplicación de aprendizaje de máquina, mis necesidades de grupo para calcular la distancia euclídea a la ésimo vecino más cercano en un conjunto para cada (para entre 5 y aproximadamente 100 , y algunos cientos hasta unos pocos millones). Actualmente estamos utilizando el enfoque de fuerza bruta o el obvio con un árbol kd en , que cuando es alto yes relativamente bajo, nunca gana. (Todo está en la memoria).
Sin embargo, parece que debe haber una mejor manera que la fuerza bruta, al menos una que aproveche la desigualdad del triángulo, o tal vez con hashes sensibles a la localidad. Una aproximación razonablemente ajustada también está potencialmente bien.
La investigación que he podido encontrar parece centrarse en el problema de encontrar el vecino más cercano (o uno que sea aproximadamente el más cercano). ¿El problema que busco tiene otro nombre o hay una conexión con un problema relacionado en el que no he pensado?