Entiendo lo que es la "maldición de la dimensionalidad", y he hecho algunos problemas de optimización de alta dimensión y conozco el desafío de las posibilidades exponenciales.
Sin embargo, dudo que la "maldición de la dimensionalidad" exista en la mayoría de los datos del mundo real (bueno, dejemos de lado las imágenes o los videos por un momento, estoy pensando en datos como los datos demográficos del cliente y el comportamiento de compra).
Podemos recopilar datos con miles de características, pero es menos probable incluso imposible que las características puedan abarcar completamente un espacio con miles de dimensiones. Es por eso que las técnicas de reducción de dimensiones son tan populares.
En otras palabras, es muy probable que los datos no contengan el nivel exponencial de información, es decir, muchas características están altamente correlacionadas y muchas características satisfacen las reglas 80-20 (muchas instancias tienen el mismo valor).
En tal caso, creo que métodos como KNN seguirán funcionando razonablemente bien. (En la mayoría de los libros, "la maldición de la dimensionalidad" dice que la dimensión> 10 podría ser problemática. En sus demostraciones usan una distribución uniforme en todas las dimensiones, donde la entropía es realmente alta. Dudo que en el mundo real esto suceda).
Mi experiencia personal con datos reales es que la "maldición de la dimensionalidad" no afecta demasiado el método de la plantilla (como KNN) y, en la mayoría de los casos, las dimensiones ~ 100 aún funcionarían.
¿Es esto cierto para otras personas? (Trabajé con datos reales en diferentes industrias durante 5 años, nunca observé "todos los pares de distancia tienen valores similares" como se describe en el libro).