¿Por qué la distancia euclidiana no es una buena métrica en altas dimensiones?

241

Leí que "la distancia euclidiana no es una buena distancia en grandes dimensiones". Supongo que esta afirmación tiene algo que ver con la maldición de la dimensionalidad, pero ¿qué es exactamente? Además, ¿qué son las "altas dimensiones"? He estado aplicando agrupamiento jerárquico usando la distancia euclidiana con 100 características. ¿Hasta cuántas características es 'seguro' usar esta métrica?

— teaLeef
fuente

55

Muy relacionado: ¿la distancia euclidiana generalmente no es buena para datos escasos? como lo señaló facuq .

— cardenal

55

Esto es probablemente demasiado básico para ti; Escribí una serie de publicaciones de blog sobre el tema de la métrica euclidiana en dimensiones más altas y cómo eso afecta la búsqueda de espacios vectoriales para las coincidencias más cercanas. blogs.msdn.com/b/ericlippert/archive/tags/…

— Eric Lippert

1

@ HorstGrünbusch vea las respuestas a continuación para obtener algunas referencias. La varianza de distancias se vuelve pequeña en comparación con el promedio. Entonces, en algún momento, tiene problemas para elegir umbrales, pesos, pedidos; e incluso puede tener problemas de precisión numérica también. Pero si sus datos son escasos, es probable que tengan una dimensionalidad intrínseca mucho menor .

— Anony-Mousse

3

"altas dimensiones" parece ser un término engañoso: algunas respuestas tratan el 9-12 como "altas dimensiones", pero en otras áreas una alta dimensionalidad significaría miles o un millón de dimensiones (por ejemplo, medir ángulos entre vectores de bolsa de palabras donde cada dimensión es la frecuencia de alguna palabra en un diccionario), y 100 dimensiones se llamarían bajo, no alto.

— Peteris

2

Esta pregunta realmente podría tener algo de contexto. ¿No es bueno para qué?

— Szabolcs

244

Un gran resumen de resultados no intuitivos en dimensiones superiores proviene de " Algunas cosas útiles que debe saber sobre el aprendizaje automático " de Pedro Domingos en la Universidad de Washington:

[O] nuestras intuiciones, que provienen de un mundo tridimensional, a menudo no se aplican en las de alta dimensión. En grandes dimensiones, la mayor parte de la masa de una distribución gaussiana multivariada no está cerca de la media, sino en un "caparazón" cada vez más distante a su alrededor; y la mayor parte del volumen de una naranja de alta dimensión está en la piel, no en la pulpa. Si un número constante de ejemplos se distribuye uniformemente en un hipercubo de alta dimensión, más allá de alguna dimensionalidad, la mayoría de los ejemplos están más cerca de una cara del hipercubo que de su vecino más cercano. Y si aproximamos una hiperesfera inscribiéndola en un hipercubo, en grandes dimensiones casi todo el volumen del hipercubo está fuera de la hiperesfera. Estas son malas noticias para el aprendizaje automático, donde las formas de un tipo a menudo se aproximan a las formas de otro.

El artículo también está lleno de muchas perlas adicionales de sabiduría para el aprendizaje automático.

Otra aplicación, más allá del aprendizaje automático, es la búsqueda de vecinos más cercanos: dada una observación de interés, encuentre sus vecinos más cercanos (en el sentido de que estos son los puntos con la menor distancia desde el punto de consulta). Pero en las dimensiones altas, surge un fenómeno curioso: la relación entre los puntos más cercanos y más lejanos se aproxima a 1, es decir, los puntos esencialmente se vuelven uniformemente distantes entre sí. Este fenómeno se puede observar para una amplia variedad de métricas de distancia, pero es más pronunciado para la métrica euclidiana que, por ejemplo, la métrica de distancia de Manhattan. La premisa de la búsqueda del vecino más cercano es que los puntos "más cercanos" son más relevantes que los puntos "más lejanos", pero si todos los puntos están esencialmente uniformemente distantes entre sí, la distinción no tiene sentido.

De Charu C. Aggarwal, Alexander Hinneburg, Daniel A. Keim, " Sobre el comportamiento sorprendente de las métricas a distancia en el espacio de alta dimensión ":

Se ha argumentado en [Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft, " ¿Cuándo es significativo el" vecino más cercano "? "] Que bajo ciertos supuestos razonables sobre la distribución de datos, la relación de las distancias de los vecinos más cercanos y más lejanos para un objetivo dado en un espacio de alta dimensión es casi 1 para una amplia variedad de distribuciones de datos y funciones de distancia. En tal caso, el problema vecino más cercano queda mal definido, ya que no existe el contraste entre las distancias a diferentes puntos de datos. En tales casos, incluso el concepto de proximidad puede no ser significativo desde una perspectiva cualitativa: un problema que es aún más fundamental que la degradación del rendimiento de los algoritmos de alta dimensión.

... Muchas estructuras y algoritmos de indexación de alta dimensión utilizan la métrica de distancia [E] uclidean como una extensión natural de su uso tradicional en aplicaciones espaciales bidimensionales o tridimensionales. ... En este artículo proporcionamos algunos resultados teóricos y experimentales sorprendentes en el análisis de la dependencia de la norma del valor de . Más específicamente, mostramos que los contrastes relativos de las distancias a un punto de consulta dependen en gran medida de la métrica utilizada. Esto proporciona una evidencia considerable de que el significado de la norma empeora más rápido al aumentar la dimensionalidad para valores más altos de $L_k$ $k$ $L_k$ $L_k$ $k$ . Por lo tanto, para un problema dado con un valor fijo (alto) para la dimensionalidad , puede ser preferible usar valores más bajos de . Esto significa que la métrica de distancia (métrica de distancia de Manhattan) es la más preferible para aplicaciones de alta dimensión, seguida de la métrica euclidiana ( ). ... $d$ $k$ $L_1$ $L_2$

Los autores del artículo "Comportamiento sorprendente" proponen usar las normas con . Producen algunos resultados que demuestran que estas "normas fraccionales" exhiben la propiedad de aumentar el contraste entre los puntos más lejanos y más cercanos. Esto puede ser útil en algunos contextos, sin embargo, hay una advertencia: estas "normas fraccionales" no son métricas de distancia adecuadas porque violan la desigualdad del triángulo. Si la desigualdad del triángulo es una cualidad importante para tener en su investigación, entonces las métricas fraccionarias no serán tremendamente útiles. $L_k$ $k<1$

— Sycorax
fuente

77

esta referencia es increíble

— Antoine

1

Leyendo una vez más ... Hermoso ...

— Richard Hardy

113

La noción de distancia euclidiana, que funciona bien en los mundos bidimensionales y tridimensionales estudiados por Euclides, tiene algunas propiedades en dimensiones superiores que son contrarias a nuestra (quizás solo mi ) intuición geométrica, que también es una extrapolación de dos y tres dimensiones.

Considere un cuadrado de con vértices en . Dibuje cuatro círculos de radio unitario centrados en . Estos "llenan" el cuadrado, con cada círculo tocando los lados del cuadrado en dos puntos, y cada círculo toca sus dos vecinos. Por ejemplo, el círculo centrado en toca los lados del cuadrado en y $4\times 4$ $(\pm 2, \pm 2)$ $(\pm 1, \pm 1)$ $(1,1)$ $(2,1)$ $(1,2)$ , y sus círculos vecinos en y . Luego, dibuja un pequeño círculo centrado en el origen que toque los cuatro círculos. Dado que el segmento de línea cuyos puntos finales son los centros de dos círculos osculadores pasa a través del punto de osculación, se verifica fácilmente que el círculo pequeño tiene un radio $(1,0)$ $(0,1)$ y que toca toca los cuatro círculos más grandes en $r_2 = \sqrt{2}-1$ . Tenga en cuenta que el círculo pequeño está "completamente rodeado" por los cuatro círculos más grandes y, por lo tanto, también está completamente dentro del cuadrado. Tenga en cuenta también que el puntoencuentra en el círculo pequeño. Observe también que desde el origen, uno no puede "ver" el puntoen el borde del cuadrado porque la línea de visión pasa a través del punto de osculaciónde los dos círculos centrados eny $(\pm r_2/\sqrt{2}, \pm r_2/\sqrt{2})$ $(r_2,0)$ $(2,0,0)$ $(1,0,0)$ $(1,1)$ . Lo mismo ocurre con las líneas de visión a los otros puntos donde los ejes pasan a través de los bordes del cuadrado. $(1,-1)$

Luego, considere un cubo con vértices en . Lo llenamos con esferas de radio unidad osculadoras centradas en , y luego colocamos una esfera osculadora más pequeña centrada en el origen. Tenga en cuenta que la esfera pequeña tiene radio $4\times 4 \times 4$ $(\pm 2, \pm 2, \pm 2)$ $8$ $(\pm 1, \pm 1, \pm 1)$ y el puntoencuentra en la superficie de la esfera pequeña. Pero observe también que en tres dimensiones, unopuede"ver" el punto desde el origen; no hay esferas más grandes que bloqueen la vista como sucede en dos dimensiones. Estas líneas claras de visión desde el origen hasta los puntos donde los ejes pasan a través de la superficie del cubo también se producen en todas las dimensiones más grandes. $r_3 = \sqrt{3}-1 < 1$ $(r_3,0,0)$ $(2,0,0)$

Generalizando, podemos considerar un hipercubo -dimensional de lado y llenarlo con osculadores hiperesferas unidad de radio con centro en y luego poner un "más pequeño" esfera osculating de radio $n$ $4$ $2^n$ $(\pm 1, \pm 1, \ldots, \pm 1)$ en el origen. El punto encuentra en esta esfera "más pequeña". Pero, observe deque cuando,y, por lo tanto, la esfera "más pequeña" tiene un radio unitario y, por lo tanto, realmente no merece el sobrenombre de "más pequeño" para

\begin{matrix} (1) & r_{norte} = \sqrt{norte} - 1 \end{matrix}

$r_n = \sqrt{n}-1\tag{1}$

(r_{n}, 0, 0, \dots, 0)

$(r_n,0,0, \ldots, 0)$

(1)

$(1)$

n = 4

$n = 4$

r_{n} = 1

$r_n = 1$

n \geq 4

$n\geq 4$ . De hecho, sería mejor si lo llamáramos "esfera más grande" o simplemente "esfera central". Como se señaló en el último párrafo, hay una línea de visión clara desde el origen hasta los puntos donde los ejes pasan a través de la superficie del hipercubo. Peor aún, cuando

, tenemos

que

, y por lo tanto el punto

en la esfera central se encuentra fuera del hipercubo del lado

n > 9

$n > 9$

(1)

$(1)$

r_{n} > 2

$r_n >2$

(r_{n}, 0, 0, \dots, 0)

$(r_n, 0, 0, \ldots, 0)$ $4$ a pesar de que está "completamente rodeado" por las hiperesferas de radio unitario que "llenan" el hipercubo (en el sentido de empacarlo). La esfera central se "abulta" fuera del hipercubo en el espacio de alta dimensión. Encuentro esto muy contra-intuitivo porque mis traducciones mentales de la noción de distancia euclidiana a dimensiones superiores, usando la intuición geométrica que he desarrollado a partir del 2-espacio y 3-espacio con el que estoy familiarizado, no describen la realidad de espacio de alta dimensión

Mi respuesta a la pregunta del OP "Además, ¿qué es 'altas dimensiones'?" es . $n \geq 9$

— Dilip Sarwate
fuente

17

Relacionado: Historia de la paradoja del volumen de alta dimensión .

— cardenal

99

@ stackoverflowuser2010: Si esta respuesta es completamente incomprensible, ¿cómo puede saber si aborda o intenta abordar la pregunta original? Un enfoque más constructivo podría ser pedir una aclaración de cualquier punto que no esté claro en lugar de descartarlo por completo.

— Scortchi

8

@ stackoverflowuser2010 Dado que esta respuesta tiene muchas decenas de votos a favor, parece que muchas personas sienten que es razonablemente comprensible y responde de alguna manera aceptable a la pregunta. Quizás podría intentar una crítica más constructiva: ¿cómo, específicamente, cree que se mejoraría esta respuesta? ¿Qué debería incluir que no lo hace?

— Glen_b

1

@Scortchi: Tal vez estoy esperando demasiado, pero una respuesta clara a esta pregunta que podría ayudar a la comunidad sería algo así como "La distancia euclidiana no es una buena métrica porque <X>".

— stackoverflowuser2010

77

@ stackoverflow2010 Nunca verá una respuesta "buena" como esa porque <las cosas son mucho más complicadas que las declaraciones if-then>. Si quieres una respuesta fácil, lo más probable es que sea falsa. Al igual que los malditos mentirosos de Brexit, fueron buenos para ofrecer respuestas fáciles (falso, pero fácil).

— Anony-Mousse

42

Es una cuestión de señal a ruido . La distancia euclidiana, debido a los términos al cuadrado, es particularmente sensible al ruido; pero incluso la distancia de Manhattan y las distancias "fraccionarias" (no métricas) sufren.

Los estudios en este artículo me parecieron muy esclarecedores:

Zimek, A., Schubert, E. y Kriegel, H.-P. (2012),
una encuesta sobre detección de valores atípicos no supervisados en datos numéricos de alta dimensión.
Statistical Analy Data Mining, 5: 363–387. doi: 10.1002 / sam.11161

Revisa las observaciones realizadas en, por ejemplo, Sobre el comportamiento sorprendente de las métricas de distancia en el espacio de alta dimensión por Aggarwal, Hinneburg y Keim mencionados por @Pat. Pero también muestra cómo los experimentos sintéticos son engañosos y que, de hecho , los datos de alta dimensión pueden volverse más fáciles . Si tiene mucha señal (redundante) y las nuevas dimensiones agregan poco ruido.

$x,y \rightarrow x,y,x,y,x,y,x,y,...,x,y$

Entonces, al final, aún depende de sus datos. Si tiene muchos atributos inútiles, la distancia euclidiana se volverá inútil. Si pudiera incrustar fácilmente sus datos en un espacio de datos de baja dimensión, la distancia euclidiana también debería funcionar en el espacio dimensional completo. En particular, para datos dispersos , como los vectores TF del texto, este parece ser el caso de que los datos tienen una dimensionalidad mucho menor de lo que sugiere el modelo de espacio vectorial.

Algunas personas creen que la distancia cosenoidal es mejor que Euclidiana en datos de alta dimensión. No lo creo: la distancia cosenoidal y la distancia euclidiana están estrechamente relacionadas; así que debemos esperar que sufran los mismos problemas. Sin embargo, los datos textuales donde el coseno es popular generalmente son escasos , y el coseno es más rápido en los datos que son escasos, por lo que para los datos escasos, hay buenas razones para usar el coseno; y debido a que los datos son escasos, la dimensionalidad intrínseca es mucho menor que la dimensión del espacio vectorial.

Vea también esta respuesta que le di a una pregunta anterior: https://stats.stackexchange.com/a/29647/7828

— Anony-Mousse
fuente

[- 1, 1]^{n}

$[-1, 1]^n$

n

$n$

¿Y cuál sería la conclusión de eso? En [-1; 1] ^ d uno no debería usar Coseno porque no está definido en 0, el promedio no nos dice nada sobre la maldición y los datos uniformes no son realistas.

— Anony-Mousse

No lo intenté por ahora, pero supongo que los ángulos son similares para los datos reales. El hecho de que no esté definido en 0 no debería importar realmente, ya que es solo un punto. Mi conclusión es similar a la suya: la distancia del coseno no es adecuada para espacios de alta dimensión (aunque podría haber dominios si aún funciona)

— Martin Thoma

Un escenario más realista sería puntos en la esfera de unidad no negativa. Y la medida de interés probablemente sería la varianza, no la media.

— Anony-Mousse

Para llegar a la esfera de unidad no negativa solo tienes que sumar +1 y dividir por 2 ...

— Martin Thoma

34

Probablemente, el mejor lugar para comenzar es leer Sobre el comportamiento sorprendente de las métricas de distancia en el espacio de alta dimensión de Aggarwal, Hinneburg y Keim. Actualmente hay un enlace que funciona aquí (pdf) , pero debería ser muy compatible con Google si se rompe. En resumen, a medida que aumenta el número de dimensiones, la distancia euclidiana relativa entre un punto en un conjunto y su vecino más cercano, y entre ese punto y su vecino más alejado, cambia de maneras no obvias. Si esto afectará o no sus resultados depende en gran medida de lo que está tratando de lograr y de cómo son sus datos.

— Palmadita
fuente

6

La distancia euclidiana rara vez es una buena distancia para elegir en Machine Learning y esto se vuelve más obvio en las dimensiones superiores. Esto se debe a que la mayor parte del tiempo en el aprendizaje automático no se trata de un espacio métrico euclidiano, sino de un espacio métrico probabilístico y, por lo tanto, debe utilizar funciones de distancia teóricas probabilísticas y de información, por ejemplo, funciones basadas en entropía.

A los humanos les gusta el espacio euclidiano porque es fácil de conceptualizar, además es matemáticamente fácil debido a las propiedades de linealidad que significan que podemos aplicar álgebra lineal. Si definimos distancias en términos de, por ejemplo, Divergencia Kullback-Leibler, entonces es más difícil visualizar y trabajar matemáticamente.

— samthebest
fuente

2

Puede ser problemático, ya que KL Divergence no es una métrica. :-)

— agarie

2

Si uno necesita simetría, puede usar la información mutua, que, como se insinuó, se puede definir en términos de KL.

— samthebest

3

Como analogía, imagine un círculo centrado en el origen. Los puntos se distribuyen de manera uniforme. Supongamos que un punto seleccionado al azar está en (x1, x2). La distancia euclidiana desde el origen es ((x1) ^ 2 + (x2) ^ 2) ^ 0.5

Ahora, imagine puntos distribuidos uniformemente sobre una esfera. Ese mismo punto (x1, x2) ahora será probablemente (x1, x2, x3). Dado que, en una distribución uniforme, solo unos pocos puntos tienen una de las coordenadas como cero, supondremos que [x3! = 0] para nuestro punto distribuido uniformemente seleccionado al azar. Por lo tanto, nuestro punto aleatorio es más probable (x1, x2, x3) y no (x1, x2, 0).

El efecto de esto es: cualquier punto aleatorio está ahora a una distancia de ((x1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0.5 desde el origen de la esfera tridimensional. Esta distancia es mayor que la de un punto aleatorio cerca del origen de un círculo 2D. Este problema empeora en las dimensiones superiores, por lo que elegimos métricas distintas de las dimensiones euclidianas para trabajar con dimensiones superiores.

EDITAR: Hay un dicho que recuerdo ahora: "La mayor parte de la masa de una naranja de mayor dimensión está en la piel, no en la pulpa", lo que significa que en las dimensiones superiores de manera uniforme los puntos distribuidos están más "cerca" (distancia euclidiana) del límite que el origen

Nota al margen: la distancia euclidiana no es demasiado malo para los problemas del mundo real debido a la 'bendición de la no uniformidad', que básicamente establece que para datos reales, sus datos probablemente NO se distribuirán de manera uniforme en el espacio dimensional superior, pero ocupará un pequeño subconjunto de clusters del espacio. Esto tiene sentido intuitivamente: si está midiendo 100 cantidades sobre humanos como altura, peso, etc., una distribución uniforme sobre el espacio de dimensión simplemente no tiene sentido, por ejemplo, una persona con (altura = 65 pulgadas, peso = 150 lbs, avg_calorie_intake = 4000) que simplemente no es posible en el mundo real.

— Abhishek Divekar
fuente

Si algún lector futuro está interesado en la cita "naranja / pulpa", o en el comentario de "bendición de la no uniformidad", ambos aparecen en "Algunas cosas útiles para aprender sobre el aprendizaje automático", que está vinculado en mi respuesta al respecto. hilo.

— Sycorax

1

Otra faceta de esta pregunta es esta:

Muy a menudo, las grandes dimensiones en los problemas (de aprendizaje automático / estadísticos) son el resultado de características demasiado limitadas.

Es decir, las dimensiones NO son independientes (o no están correlacionadas), pero las métricas euclidianas suponen (al menos) una falta de correlación y, por lo tanto, pueden no producir los mejores resultados

Entonces, para responder a su pregunta, el número de "altas dimensiones" está relacionado con cuántas características son interdependientes o redundantes o están demasiado restringidas

Además: es un teorema de Csiszar (et al.) Que las métricas euclidianas son candidatos "naturales" para la inferencia cuando las características son de ciertas formas

— Nikos M.
fuente

3

Las métricas euclidianas no "suponen ... falta de correlación". Las distancias euclidianas funcionan peor en grandes dimensiones con variables no correlacionadas. Considere el caso extremo: tiene muchas dimensiones que están perfectamente correlacionadas, r = 1, ahora sus datos son de hecho unidimensionales, y la distancia euclidiana funciona bien con datos unidimensionales.

— Gung

No, no lo creo, la distancia euclidiana por definición asume datos no correlacionados (excepto si se usa la distancia euclidiana generalizada con la matriz de correlación)

— Nikos M.

Las características con correlación total (r = 1) es un ejemplo trivial y equivalente a una "matriz de correlación trivial", pero tal vez estoy equivocado

— Nikos M.

@gung Puede interpretar una pérdida euclidiana como una pérdida de entropía cruzada de gaussianos con matriz de variación isotrópica de unidad fija. Creo que este es un buen punto, pero podría explicarse mejor.

— Neil G

1

(0, 0)

$(0,0)$

(1, 1)

$(1,1)$

d_{E} = \sqrt{\sum_{j} (x_{2 j} - x_{1 j})^{2}}

$d_E = \sqrt{\sum_j (x_{2j} - x_{1j})^2}$

\sqrt{2}

$\sqrt 2$

X_{1} = X_{2}

$X_1 = X_2$

1

$1$

\sqrt{2}

$\sqrt 2$

c o r (X_{1}, X_{2}) = 0

${\rm cor}(X_1, X_2) = 0$

\sqrt{2}

$\sqrt 2$

0

Este documento también puede ayudarlo "Medición de similitud de coseno-sqrt mejorada" visite https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 Este documento explica por qué la distancia euclidiana no es una buena métrica en alta dimensión datos y cuál es el mejor reemplazo para la distancia euclidiana en datos de alta dimensión. La distancia euclidiana es la norma L2 y al disminuir el valor de k en la norma Lk podemos aliviar el problema de la distancia en los datos de alta dimensión. Puede encontrar las referencias en este documento también.

— Sahar
fuente

2

Bienvenido al sitio. Estamos tratando de construir un repositorio permanente de información estadística de alta calidad en forma de preguntas y respuestas. Por lo tanto, desconfiamos de las respuestas de solo enlace, debido a linkrot. ¿Puede publicar una cita completa y un resumen de la información en el enlace, en caso de que falle?

— Gung