Distribución de productos escalares de dos vectores unitarios aleatorios en dimensiones

Si $\mathbf{x}$ e $\mathbf{y}$ son dos vectores unitarios aleatorios independientes en $\mathbb{R}^D$ (distribuidos uniformemente en una esfera unitaria), ¿cuál es la distribución de su producto escalar (producto de puntos) $\mathbf x \cdot \mathbf y$ ?

$D$

lim_{D \to \infty} σ^{2} (D) \to 0,

$\lim_{D\to\infty}\sigma^2(D) \to 0,$

σ^{2} (D)

$\sigma^2(D)$

Actualizar

Ejecuté algunas simulaciones rápidas. Primero, al generar 10000 pares de vectores unitarios aleatorios para , es fácil ver que la distribución de sus productos de puntos es perfectamente gaussiana (de hecho, ya es bastante gaussiana para ), vea la subtrama a la izquierda. En segundo lugar, para cada varía de 1 a 10000 (con pasos crecientes), generé 1000 pares y calculé la varianza. Gráfico log-log se muestra a la derecha, y es evidente que la fórmula está muy bien aproximada por . Tenga en cuenta que para y esta fórmula incluso da resultados exactos (pero no estoy seguro de lo que sucede más adelante). $D=1000$ $D=100$ $D$ $1/D$ $D=1$ $D=2$

productos de punto entre vectores unitarios aleatorios

mathematical-statistics linear-algebra beta-distribution

— ameba dice Reinstate Monica
fuente

@KarlOskar: gracias, este enlace es muy relevante y, de hecho, hace que mi pregunta sea casi un duplicado, pero no del todo. Entonces, hay una fórmula explícita para que es una función de distribución acumulativa de los productos de punto. Uno puede tomar una derivada para obtener el PDF y luego estudiar el límite . Sin embargo, la fórmula se da en términos de funciones beta y funciones beta incompletas, por lo que es probable que los cálculos sean desagradables.

P {(x, y) > ϵ}

$P\{(\mathbf{x}, \mathbf{y})>\epsilon\}$

D \to \infty

$D\to \infty$

— ameba dice Reinstate Monica

@KarlOskar: de la distribución uniforme en una esfera unidad en . Para generar un vector aleatorio a partir de esta distribución, se puede generar un vector aleatorio a partir de un gaussiano con una varianza unitaria, y luego normalizarlo.

R^{D}

$\mathbb{R}^D$

— ameba dice Reinstate Monica

Respuestas:

Debido a que ( como es bien sabido ) se obtiene una distribución uniforme en la esfera de la unidad normalizando una distribución normal de variación y el producto de punto de los vectores normalizados es su coeficiente de correlación, las respuestas a los tres las preguntas son: $S^{D-1}$ $D$ $t$

$u= (t+1)/2$ tiene una distribución Beta . $((D-1)/2,(D-1)/2)$
La varianza de es igual a (como se especula en la pregunta). $t$ $1/D$
La distribución estandarizada de aproxima a la normalidad a una tasa de $t$ $O\left(\frac{1}{D}\right).$

Método

La distribución exacta del producto escalar de los vectores unitarios se obtiene fácilmente geométricamente, porque este es el componente del segundo vector en la dirección del primero. Dado que el segundo vector es independiente del primero y se distribuye uniformemente en la esfera de la unidad, su componente en la primera dirección se distribuye de la misma manera que cualquier coordenada de la esfera. (Tenga en cuenta que la distribución del primer vector no importa).

Encontrar la densidad

Dejando que esa coordenada sea la última, la densidad en es, por lo tanto, proporcional al área de superficie que se encuentra a una altura entre y en la esfera de la unidad. Esa proporción ocurre dentro de un cinturón de altura y radio que es esencialmente un tronco cónico construido a partir de un de radio de altura y pendiente . De donde la probabilidad es proporcional a $t \in [-1,1]$ $t$ $t+dt$ $dt$ $\sqrt{1-t^2},$ $S^{D-2}$ $\sqrt{1-t^2},$ $dt$ $1/\sqrt{1-t^2}$

\frac{{(\sqrt{1 - t^{2}})}^{D - 2}}{\sqrt{1 - t^{2}}} d t = (1 - t^{2})^{(D - 3) / 2} d t .

$\frac{\left(\sqrt{1 - t^2}\right)^{D-2}}{\sqrt{1 - t^2}}\,dt = (1 - t^2)^{(D-3)/2} dt.$

Dejar implica . Sustituyendo eso en el precedente da el elemento de probabilidad hasta una constante de normalización: $u=(t+1)/2 \in [0,1]$ $t = 2u-1$

f_{D} (u) d u \propto (1 - (2 u - 1)^{2})^{(D - 3) / 2} d (2 u - 1) = 2^{D - 2} (u - u^{2})^{(D - 3) / 2} d u .

$f_D(u)du \; \propto \; (1 - (2u-1)^2)^{(D-3)/2} d(2u-1) = 2^{D-2}(u-u^2)^{(D-3)/2}du.$

Es inmediato que tiene una distribución Beta , porque (por definición) su densidad también es proporcional a $u=(t+1)/2$ $((D-1)/2, (D-1)/2)$

u^{(D - 1) / 2 - 1} {(1 - u)}^{(D - 1) / 2 - 1} = (u - u^{2})^{(D - 3) / 2} \propto f_{D} (u) .

$u^{(D-1)/2-1}\left(1-u\right)^{(D-1)/2-1} = (u-u^2)^{(D-3)/2} \; \propto \; f_D(u).$

Determinando el comportamiento limitante

La información sobre el comportamiento limitante se deduce fácilmente de esto mediante técnicas elementales: se puede integrar para obtener la constante de proporcionalidad ; puede integrarse (usando las propiedades de las funciones Beta, por ejemplo) para obtener momentos, mostrando que la varianza es y se reduce a (de donde, por el Teorema de Chebyshev, la probabilidad se concentra cerca de ); y la distribución limitante se encuentra luego considerando los valores de la densidad de la distribución estandarizada, proporcional a para valores pequeños de $f_D$ $\frac{\Gamma \left(\frac{n}{2}\right)}{\sqrt{\pi } \Gamma \left(\frac{D-1}{2}\right)}$ $t^k f_D(t)$ $1/D$ $0$ $t=0$ $f_D(t/\sqrt{D}),$ $t$ :

\begin{aligned} \log (f_{D} (t / \sqrt{D})) & = C (D) + \frac{D - 3}{2} \log (1 - \frac{t^{2}}{D}) \\ = C (D) - (1 / 2 + \frac{3}{2 D}) t^{2} + O (\frac{t^{4}}{D}) \\ \to C - \frac{1}{2} t^{2} \end{aligned}

$\eqalign{ \log(f_D(t/\sqrt{D})) &= C(D) + \frac{D-3}{2}\log\left(1 - \frac{t^2}{D}\right) \\ &=C(D) -\left(1/2 + \frac{3}{2D}\right)t^2 + O\left(\frac{t^4}{D}\right) \\ &\to C -\frac{1}{2}t^2 }$

donde las representan constantes (log) de integración. Evidentemente, la velocidad a la que esto se aproxima a la normalidad (para la cual la densidad logarítmica es igual a ) es $C$ $-\frac{1}{2}t^2$ $O\left(\frac{1}{D}\right).$

Figura

Este gráfico muestra las densidades del producto escalar para , según la varianza estandarizada, y su densidad limitante. Los valores en aumentan con (de azul a rojo, dorado y luego verde para la densidad normal estándar). La densidad para sería indistinguible de la densidad normal en esta resolución. $D=4, 6, 10$ $0$ $D$ $D=1000$

— whuber
fuente

(+1) Muchas gracias, @whuber, ¡esta es una gran respuesta! Un agradecimiento especial por mencionar la palabra "frustum". Sucede que acepté otra respuesta unos minutos antes de que publicaras la tuya, y no me gustaría cancelarla ahora; espero que entiendas. Lástima que no sea posible aceptar ambos! Por cierto, observe una prueba muy simple de la expresión para la varianza de esa respuesta: ¡uno puede verla directamente sin perder el tiempo con las funciones beta! La varianza del producto punto es igual a la varianza de cualquier coordenada de esfera (como usted escribió), y una suma de todos los de ellos debería ser , QED

1 / D

$1/D$

D

$D$

1

$1$

— ameba dice Reinstate Monica

Esa es una buena observación sobre las variaciones.

— whuber

@amoeba, la actividad reciente también me llamó la atención aquí, y aunque aprecio que hayas aceptado mi respuesta, esta es mucho más completa. No me importaría en absoluto si cambiaras.

— ekvall

@ Student001: este es un comentario justo y generoso. Cambié la respuesta aceptada. También he encontrado una Q y una A para votar para compensarlo :)

— ameba dice Reinstate Monica

@mat La distribución de es la de . Eso lo convierte en una distribución Beta que ha sido escalada y desplazada del intervalo al intervalo .

t

$t$

2 U - 1

$2U-1$

[0, 1]

$[0,1]$

[- 1, 1]

$[-1,1]$

— whuber

Encontremos la distribución y luego la varianza sigue los resultados estándar. Considere el producto vectorial y escríbalo en su forma coseno, es decir, tenga en cuenta que donde es el ángulo entre e . En el último paso lo he usado para cualquier evento yAhora considere el término . Está claro que dado que se elige de manera uniforme con respecto a la superficie de la esfera, no importa qué

P (x^{'} y \leq t) = P (| x | | y | \cos θ \leq t) = P (\cos θ \leq t) = E P (\cos θ \leq t ∣ y),

$P(x'y\leq t)=P(|x||y|\cos\theta\leq t)=P(\cos\theta\leq t)=\mathbb{E}P(\cos\theta\leq t\mid y),$

θ

$\theta$

x

$x$

y

$y$

A

$A$

B

$B$

E P (A ∣ B) := E [E [χ_{A} ∣ B]] = E χ_{A} = P (A) .

$\mathbb EP(A\mid B):=\mathbb{E}[\mathbb{E}[\chi_A\mid B]]=\mathbb{E}\chi_A=P(A).$

P (\cos θ \leq t ∣ y)

$P(\cos\theta\leq t\mid y)$

x

$x$

y

$y$ en realidad es, solo importa el ángulo entre e . Por lo tanto, el término dentro de la expectativa es en realidad constante en función de y podemos asumir queLuego obtenemos quepero dado que es la primera coordenada de un vector gaussiano normalizado en tenemos que es gaussiano con varianza invocando el resultado asintótico de este artículo .

x

$x$

y

$y$

y

$y$

y = [1, 0, 0, \dots]^{'} .

$y=[1,0,0,\dots ]'.$

P (x^{'} y \leq t) = P (x_{1} \leq t) .

$P(x'y\leq t)=P\left( x_1\leq t\right).$

x_{1}

$x_1$

R^{n},

$\mathbb{R}^n,$

x^{'} y

$x'y$

1 / n

$1/n$

Para obtener un resultado explícito de la varianza, use el hecho de que el producto de punto es cero por independencia y, como se muestra arriba, se distribuye como la primera coordenada de . Según estos resultados, encontrar equivale a encontrar . Ahora, tenga en cuenta que por construcción y así podemos escribir donde la última igualdad se deduce de que las coordenadas de están idénticamente distribuidas. Al poner las cosas juntas, hemos encontrado que $x$ $\text{Var}(x'y)$ $\mathbb{E}x_1^2$ $x'x=1$

1 = E x^{'} x = E \sum_{i = 1}^{n} x_{i}^{2} = \sum_{i = 1}^{n} E x_{i}^{2} = n E x_{1}^{2},

$1=\mathbb{E}x'x=\mathbb{E}\sum_{i=1}^nx_i^2=\sum_{i=1}^n\mathbb{E}x_i^2=n\mathbb{E}x_1^2,$

x

$x$

Var (x^{'} y) = E x_{1}^{2} = 1 / n

$\text{Var}(x'y)=\mathbb{E}x_1^2=1/n$

— ekvall
fuente

Gracias, pero estoy confundido: ¿cuál es exactamente "el resultado deseado" y cómo se deduce de la última ecuación? La distribución final de probabilidad debe depender de .

D

$D$

— ameba dice Reinstate Monica

En realidad, el resultado de su última ecuación es exactamente lo que se discutió en matemáticas . Implica distribuciones beta, etc., y el comportamiento limitante está (para mí) lejos de ser obvio. Creo que debe haber una manera directa más fácil de ver que .

σ^{2} (D) \approx 1 / D

$\sigma^2(D) \approx 1/D$

— ameba dice Reinstate Monica

Depende de la dimensión ya que , donde es el vector gaussiano generado. Actualizaré la respuesta más tarde hoy o mañana.

x_{1} = z_{1} | z |^{- 1}

$x_1=z_1 |z|^{-1}$

z

$z$

— ekvall

Wow, genial, tu último enlace proporciona el límite de esa expresión que involucra funciones beta inversas (que tenía miedo de calcular) en la tercera ecuación en la página 1. Entonces, para completar el razonamiento: si la esfera tiene radio , entonces se distribuye (asintóticamente) como . Lo que significa que para la esfera de la varianza radio unidad es veces más pequeño, es decir, . Sin embargo, todavía tengo una preocupación: verifiqué para de 1 a 4, y parece dar una variación exacta , a pesar de que las distribuciones para D = 1 o D = 2 están muy lejos de lo normal. Debería haber una razón más profunda detrás de eso.

\sqrt{D}

$\sqrt{D}$

x_{1}

$x_1$

N (0, 1)

$\mathcal{N}(0,1)$

D

$D$

1 / D

$1/D$

D

$D$

1 / D

$1/D$

— ameba dice Reinstate Monica

@amoeba Sí, actualizado con una prueba de eso.

— ekvall

Para responder la primera parte de su pregunta, denote . Definir El producto de los elementos de e indicados aquí ya que se distribuirá de acuerdo con la distribución conjunta de e . entonces desde , $Z = \langle X,Y \rangle = \sum X_i Y_i$

f_{Z_{i}} (z_{i}) = \int_{- \infty}^{\infty} f_{Z_{1}, \dots, Z_{D}} (z_{1}, \dots, z_{D}) d z_{i}

$f_{Z_i}(z_i) = \int_{-\infty}^\infty f_{Z_1,\ldots,Z_D}(z_1,\ldots,z_D) \: d z_i$

i^{t h}

$i^{th}$

X

$X$

Y

$Y$

Z_{i}

$Z_i$

X_{i}

$X_i$

Y_{i}

$Y_i$

f_{Z_{i}} (z_{i}) = \int_{- \infty}^{\infty} f_{X_{i}, Y_{i}} (x, \frac{z_{i}}{x}) \frac{1}{| x |} d x

$f_{Z_i}(z_i) = \int_{-\infty}^\infty f_{X_i,Y_i}(x,\frac{z_i}{x})\frac{1}{|x|}dx$

Z = \sum Z_{i}

$Z = \sum Z_i$

f_{Z} (z) = \int_{- \infty}^{\infty} \dots \int_{- \infty}^{\infty} f_{Z_{1}, \dots, Z_{D}} (z_{1}, \dots, z_{d}) δ (z - \sum z_{i}) d z_{1} \dots d z_{d}

$f_Z(z) = \int_{-\infty}^\infty \ldots \int_{-\infty}^\infty f_{Z_1,\ldots,Z_D} (z_1,\ldots,z_d) \: \delta(z - \sum z_i)\: dz_1\ldots d z_d$

Para la segunda parte, creo que si quieres decir algo interesante sobre el comportamiento asintótico de necesitas al menos asumir la independencia de e , y luego aplicar un CLT. $\sigma$ $X$ $Y$

Por ejemplo, si estaba dispuesto a asumir que los se combinan con y podría digamos que y . $\{Z_1,\ldots,Z_D\}$ $\mathbb{E}[Z_i] = \mu$ $\mathbb{V}[Z_i] = \sigma^2$ $\sigma^2(D) = \frac{\sigma^2}{D}$ $\lim_{D\to\infty} \sigma^2(D) = 0$

— tom
fuente

Gracias, pero estoy confundido acerca de la segunda parte. supuesto, se supone que e son independientes, agregaré esto a la pregunta. Usted dice que , y eso suena razonable, pero ¿cuál es el comportamiento asintótico de ? Creo que la expresión Estoy buscando debería depender sólo de . Por cierto en 2D si no me equivoco, me pregunto si esto sigue siendo cierto en las dimensiones superiores ...

X

$X$

Y

$Y$

σ^{2} (D) = V a r (z_{i}) / D

$\sigma^2(D) = \mathrm{Var}(z_i)/D$

V a r (z_{i})

$\mathrm{Var}(z_i)$

D

$D$

V a r (z_{i}) = 1 / 2

$\mathrm{Var}(z_i)=1/2$

— Amoeba dice Reinstate Monica

¿Es realmente posible que sea independiente dado el requisito de que e son de longitud unitaria?

z_{i}

$z_i$

X

$X$

Y

$Y$

— ekvall

@ Tom: Por cierto, yo estaba equivocada: en 2D es 1, es que es igual 1/2. He actualizado mi pregunta con algunos resultados de simulación. Parece que la fórmula correcta es .

V a r (z_{i})

$\mathrm{Var}(z_i)$

V a r (z)

$\mathrm{Var}(z)$

1 / D

$1/D$

— ameba dice Reinstate Monica