En 1999, Beyer et al. preguntó: ¿ Cuándo es significativo el "vecino más cercano"?
¿Existen mejores formas de analizar y visualizar el efecto de la planitud de distancia en la búsqueda de NN desde 1999?
¿El conjunto de datos [un determinado] proporciona respuestas significativas al problema 1-NN? El problema de 10 NN? El problema de 100 NN?
¿Cómo abordarían ustedes hoy esta pregunta?
Ediciones lunes 24 de enero:
¿Qué tal "distancia blanca" como un nombre más corto para "distancia plana con dimensión creciente"?
Una manera fácil de ver el "distanciamiento de distancia" es correr 2-NN y trazar distancias al vecino más cercano y al segundo vecino más cercano. La siguiente gráfica muestra dist 1 y dist 2 para un rango de nclusters y dimensiones, de Monte Carlo. Este ejemplo muestra un contraste de distancia bastante bueno para la diferencia absoluta escalada | dist 2 - dist 1 |. (Las diferencias relativas | dist 2 / dist 1 | → 1 como dimensión → ∞, se vuelven inútiles.)
Si los errores absolutos o los errores relativos deben usarse en un contexto dado depende, por supuesto, del ruido "real" presente: difícil.
Sugerencia: siempre ejecute 2-NN; 2 vecinos son útiles cuando están cerca, y útiles cuando no.