Tengo problemas para entender la maldición de la dimensionalidad. Específicamente, lo encontré mientras hacía el scikit-learn
tutorial en python. ¿Alguien puede explicar lo siguiente de una manera más simple? Lo siento, he estado tratando de entender durante mucho tiempo y no puedo entender cómo se les ocurrió el cálculo de la cantidad de ejemplos de entrenamiento para lograr un estimador KNN eficiente.
Aquí está la explicación:
Para que un estimador sea efectivo, necesita que la distancia entre los puntos vecinos sea menor que algún valor d, que depende del problema. En una dimensión, esto requiere en promedio n ~ 1 / d puntos. En el contexto del ejemplo KNN anterior, si los datos se describen con solo una característica con valores que van de 0 a 1 y con n observaciones de entrenamiento, los nuevos datos no estarán más allá de 1 / n. Por lo tanto, la regla de decisión del vecino más cercano será eficiente tan pronto como 1 / n sea pequeña en comparación con la escala de variaciones de características entre clases.
Si el número de características es p, ahora necesita n ~ 1 / d ^ p puntos. Digamos que necesitamos 10 puntos en una dimensión: ahora se requieren 10 ^ p puntos en p dimensiones para pavimentar el espacio [0, 1]. A medida que p aumenta, el número de puntos de entrenamiento requeridos para un buen estimador crece exponencialmente.
EDITAR: ¿también se ~
supone que tilde ( ) representa aproximadamente en ese ejemplo? o el operador python tilde?