En Elementos de aprendizaje estadístico , se presenta un problema para resaltar problemas con k-nn en espacios de alta dimensión. Hay puntos de datos que están distribuidos uniformemente en una bola de unidad -dimensional.
La distancia media desde el origen hasta el punto de datos más cercano viene dada por la expresión:
Cuando , la fórmula se descompone a la mitad del radio de la pelota, y puedo ver cómo el punto más cercano se acerca al borde como , haciendo que la intuición detrás de knn se rompa en grandes dimensiones. Pero no puedo entender por qué la fórmula depende de N. ¿Podría alguien aclararme?
Además, el libro aborda este problema aún más al afirmar: "... la predicción es mucho más difícil cerca de los bordes de la muestra de entrenamiento. Uno debe extrapolar desde los puntos de muestra vecinos en lugar de interpolar entre ellos". Esto parece una declaración profunda, pero parece que no puedo entender lo que significa. ¿Alguien podría reformular?