Explicación de la fórmula para el punto medio más cercano al origen de N muestras de la unidad de bola


11

En Elementos de aprendizaje estadístico , se presenta un problema para resaltar problemas con k-nn en espacios de alta dimensión. Hay puntos de datos que están distribuidos uniformemente en una bola de unidad -dimensional.Np

La distancia media desde el origen hasta el punto de datos más cercano viene dada por la expresión:

d(p,N)=(1(12)1N)1p

Cuando , la fórmula se descompone a la mitad del radio de la pelota, y puedo ver cómo el punto más cercano se acerca al borde como , haciendo que la intuición detrás de knn se rompa en grandes dimensiones. Pero no puedo entender por qué la fórmula depende de N. ¿Podría alguien aclararme?N=1p

Además, el libro aborda este problema aún más al afirmar: "... la predicción es mucho más difícil cerca de los bordes de la muestra de entrenamiento. Uno debe extrapolar desde los puntos de muestra vecinos en lugar de interpolar entre ellos". Esto parece una declaración profunda, pero parece que no puedo entender lo que significa. ¿Alguien podría reformular?


1
Necesita editar un poco la ecuación que se muestra. ¿Es ese exponente aplicable solo a ese en el numerador como se ve ahora, o desea que se aplique a todo ? 1N112
Dilip Sarwate

1
Sería útil distinguir la "hiperesfera" (que en es una variedad de dimensión ) de la "bola de la unidad" (que tiene la dimensión ). La hiperesfera es el límite de la pelota. Si, como dice su título, todos los puntos se muestrean desde la hiperesfera , entonces, por definición, todos tienen una distancia desde el origen, la distancia media es y todos están igualmente cerca del origen. Rpp1p11
whuber

@DilipSarwate Se aplica a todo . En el libro hay un ejemplo donde entonces12N=500,p=10d(p,N)0.52
usuario64773

Respuestas:


8

El volumen de una hiperbola -dimensional de radio tiene un volumen proporcional a .prrp

Entonces, la proporción del volumen a más de una distancia del origen es .krrp(kr)prp=1kp

La probabilidad de que todos los puntos elegidos al azar son más de una distancia desde el origen es . Para obtener la distancia media al punto aleatorio más cercano, establezca esta probabilidad igual a . EntoncesNkr(1kp)N12

(1kp)N=12
k=(1121/N)1/p.

Intuitivamente esto hace algún tipo de sentido: los puntos más al azar que hay, cuanto más cerca se espera la más cercana al origen que sea, por lo que debe esperar sea una función decreciente de . Aquí es una función decreciente de , entonces es una función creciente de , y por lo tanto es una función decreciente de como es su raíz .kN21/NN121/NN1121/NNp


Ah, buena forma de verlo. ¿Serías capaz de reinterpretar la cita en mi segunda pregunta?
user64773

Sospecho que puede estar sugiriendo que en grandes dimensiones, los puntos para predecir están efectivamente muy lejos de los datos de entrenamiento, como si estuvieran en el borde de una esfera, por lo que no estás realmente interpolando sino extrapolando, y las incertidumbres son mucho mayores. Pero realmente no lo sé.
Henry

No lo entiendo: entiendo por qué esta expresión es la probabilidad de que todos los puntos estén más allá de kr, pero ¿por qué establecer esta probabilidad en 1/2 da la distancia media?
ihadanny

1
@ihadanny: el valor da la fracción del radio donde la probabilidad de que todos los puntos estén más lejos es , y entonces donde la probabilidad de que al menos un punto esté más cerca es , entonces es la mediana de la distribución de la distancia del punto más cercano. k=(1121/N)1/pN12112=12kr
Henry

Definición de mediana, la mitad son más grandes y la otra mitad son más pequeñas.
Grant Izmirlian

1

Y ahora sin agitar la mano

  1. Para cualquier secuencia de iid rv, donde es el CDF común

    P(min1iNYi>y)=(1F(y))N,
    F
  2. Por lo tanto, si tenemos iid distribuido uniformemente en la bola unitaria en dimensiones, entonces donde es la CDF común de las distancias, . Finalmente, ¿cuál es el CDF, , para un punto distribuido uniformemente en la bola unitaria en ? La probabilidad de que el punto se encuentre en la bola de radio r dentro de la bola de radio unitario es igual a la relación de volúmenes:NXip

    P(min1iN||Xi||>r)=(1F(r))N,
    F||Xi||,i=1,2,,NFRp

F(r)=P(||Xi||r)=Crp/(C1p)=rp

Así, la solución a

1/2=P(min1iN||Xi||>r)=(1rp)N

es

r=(1(1/2)1/N)1/p.

También pregunta sobre la dependencia del tamaño de la muestra, . Para fijo, a medida que la bola se llena con más puntos, naturalmente, la distancia mínima al origen debería ser menor.Np

Finalmente, hay algo mal en su relación de volúmenes. Parece que debería ser el volumen de la bola unidad en .kRp


0

Tan conciso pero en palabras:

Queremos encontrar la distancia media del punto más cercano al origen en puntos distribuidos uniformemente en la bola en el origen del radio unitario en dimensiones. La probabilidad de que la distancia más pequeña exceda , (llame a esta expresión de cantidad [1]) es la potencia de la probabilidad de que un único punto distribuido uniformemente exceda , debido a la independencia estadística. Este último es uno menos la probabilidad de que un único punto distribuido uniformemente sea menor que . La última es la relación de volúmenes de la bola de radio a la bola de radio unitario, o . Ahora podemos escribir la expresión [1] comoNprNthrrrrp

P(min1iN||Xi||>r)=(1rp)N.

Para encontrar la mediana de la distribución del mínimo de las distancias, establezca la probabilidad anterior en y resuelva para , obteniendo la respuesta.1/2r

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.