Maldición de dimensionalidad: clasificador kNN

11

Estoy leyendo el libro de Kevin Murphy: Aprendizaje automático: una perspectiva probabilística. En el primer capítulo, el autor explica la maldición de la dimensionalidad y hay una parte que no entiendo. Como ejemplo, el autor afirma:

Considere que las entradas están distribuidas uniformemente a lo largo de un cubo de unidad D-dimensional. Supongamos que estimamos la densidad de las etiquetas de clase haciendo crecer un hipercubo alrededor de x hasta que contenga la fracción deseada de los puntos de datos. La longitud de borde esperada de este cubo es . $f$ $e_D(f) = f^{\frac{1}{D}}$

Es la última fórmula que no puedo entender. parece que si desea cubrir, digamos que el 10% de los puntos que la longitud del borde debe ser 0.1 a lo largo de cada dimensión? Sé que mi razonamiento está mal, pero no puedo entender por qué.

self-study k-nearest-neighbour high-dimensional

— usuario42140
fuente

66

Intenta imaginar la situación en dos dimensiones primero. Si tengo una hoja de 1m * 1m de papel, y me corté un 0,1 m * 0,1 m cuadrados de la esquina inferior izquierda, he no eliminado una décima parte del documento, pero sólo una centésima .

— David Zhang

13

Ese es precisamente el comportamiento inesperado de las distancias en altas dimensiones. Para 1 dimensión, tiene el intervalo [0, 1]. El 10% de los puntos están en un segmento de longitud 0.1. Pero, ¿qué sucede a medida que aumenta la dimensionalidad del espacio de características?

Esa expresión te dice que si quieres tener ese 10% de los puntos para 5 dimensiones, debes tener una longitud para el cubo de 0,63, en 10 dimensiones de 0,79 y 0,98 para 100 dimensiones.

Como puede ver, para aumentar las dimensiones necesita mirar más lejos para obtener la misma cantidad de puntos. Aún más, te dice que la mayoría de los puntos están en el límite del cubo a medida que aumenta el número de dimensiones. Lo cual es inesperado.

— jpmuc
fuente

4

Creo que lo principal a notar es que la expresión

{mi}_{re} (F) = F^{\frac{1}{re}}

$e_D(f) = f^{\frac{1}{D}}$

es realmente muy empinado al principio. Esto significa que el tamaño del borde que necesitará para abarcar una cierta fracción del volumen aumentará drásticamente, especialmente al principio. es decir, el borde que necesita se volverá ridículamente grande a medida que aumente. $D$

Para aclarar esto aún más, recuerda la trama que muestra Murphy:

si observa, para valores de , la pendiente es realmente grande y, por lo tanto, la función crece realmente abruptamente al principio. Esto se puede apreciar mejor si toma la derivada de : $D > 1$ $e_D(f)$

{mi}_{re}^{'} (F) = \frac{1}{re} F^{\frac{1}{re} - 1} = \frac{1}{re} F^{\frac{1 - re}{re}}

$e'_D(f) = \frac{1}{D} f^{\frac{1}{D} - 1} = \frac{1}{D} f^{\frac{1 - D}{D}}$

$D > 1$ $1-D < 0$

{mi}_{re}^{'} (F) = \frac{1}{re} (F^{1 - re})^{\frac{1}{re}}

$e'_D(f) = \frac{1}{D} (f^{1 - D})^{\frac{1}{D}}$

$f$ $x^{-1} = \frac{1}{x}$ $f < 1$ $k$ $N$ $D$ $D$

$f^{1 - D}$ $\frac{1}{D}$

— Charlie Parker
fuente

2

Sí, así que si tiene un cubo unitario, o en su caso una línea unitaria, y los datos están distribuidos uniformemente, entonces tiene que recorrer una longitud de 0.1 para capturar el 10% de los datos. Ahora, a medida que aumenta las dimensiones, D aumenta, lo que disminuye el poder yf siendo menor que 1, aumentará, de modo que si D llega al infinito, tendrá que capturar todo el cubo, e = 1.

— plumSemPy
fuente

0

Creo que para kNN la distancia juega un papel más importante. Lo que le sucede a un cubo (hiper) es análogo a lo que le sucede a la distancia entre puntos. A medida que aumenta el número de dimensiones, aumenta la relación entre la distancia más cercana a la distancia promedio; esto significa que el punto más cercano está casi tan lejos como el punto promedio, entonces tiene solo un poco más de poder predictivo que el punto promedio. Este artículo lo explica muy bien

Joel Grus hace un buen trabajo al describir este problema en Data Science from Scratch. En ese libro, calcula las distancias promedio y mínima entre dos puntos en un espacio de dimensión a medida que aumenta el número de dimensiones. Calculó 10,000 distancias entre puntos, con un número de dimensiones que van de 0 a 100. Luego procede a trazar la distancia promedio y mínima entre dos puntos, así como la relación de la distancia más cercana a la distancia promedio (Distancia_Cierre / Distancia_Promedio) .

En esas parcelas, Joel mostró que la relación de la distancia más cercana a la distancia promedio aumentó de 0 a 0 dimensiones, hasta ~ 0,8 a 100 dimensiones. Y esto muestra el desafío fundamental de la dimensionalidad cuando se usa el algoritmo k-vecinos más cercanos; A medida que aumenta el número de dimensiones y la relación entre la distancia más cercana y la distancia promedio se aproxima a 1, el poder predictivo del algoritmo disminuye. Si el punto más cercano está casi tan lejos como el punto promedio, entonces tiene solo un poco más de poder predictivo que el punto promedio.

— David Refaeli
fuente