Densidad de distribución normal a medida que aumentan las dimensiones.

La pregunta que quiero hacer es esta: ¿cómo varía la proporción de muestras dentro de 1 SD de la media de una distribución normal a medida que aumenta el número de variables?

(Casi) todos saben que en una distribución normal unidimensional, el 68% de las muestras se pueden encontrar dentro de 1 desviación estándar de la media. ¿Qué pasa en 2, 3, 4, ... dimensiones? Sé que se pone menos ... pero ¿por cuánto (precisamente)? Sería útil tener una tabla que muestre las cifras de 1, 2, 3 ... 10 dimensiones, así como 1, 2, 3 ... 10 SD. ¿Alguien puede señalar una mesa así?

Un poco más de contexto: tengo un sensor que proporciona datos en hasta 128 canales. Cada canal está sujeto a ruido eléctrico (independiente). Cuando percibo un objeto de calibración, puedo promediar un número suficiente de mediciones y obtener un valor medio en los 128 canales, junto con 128 desviaciones estándar individuales.

PERO ... cuando se trata de las lecturas instantáneas individuales, los datos no responden tanto como 128 lecturas individuales, sino como una sola lectura de una cantidad de vector (hasta) 128-dimensonal. Ciertamente, esta es la mejor manera de tratar las pocas lecturas críticas que tomamos (generalmente 4-6 de las 128).

Quiero tener una idea de lo que es la variación "normal" y lo que es "atípico" en este espacio vectorial. Estoy seguro de que he visto una tabla como la que describí que se aplicaría a este tipo de situación. ¿Alguien puede señalar una?

normal-distribution multivariate-analysis

— omatai
fuente

Por favor, ¿puedo tener solo respuestas empíricas? No entiendo la mayoría de la notación matemática.

— omatai

Tomemos $X = (X_1,\dots,X_d) \sim N(0,I)$ : cada es normal y la son independientes, supongo que eso es lo que quieres decir con dimensiones más altas. $X_i$ $N(0,1)$ $X_i$

Diría que está dentro de 1 sd de la media cuando (la distancia entre X y su valor medio es inferior a 1). Ahora $X$ $||X|| < 1$ $||X||^2 = X_1^2 +\cdots+X_d^2\sim \chi^2(d)$ así que esto sucede con la probabilidad donde $P( \xi < 1 )$ $\xi\sim\chi^2(d)$ . Puedes encontrar esto en buenas mesas de chi cuadrado ...

Aquí hay algunos valores:

\begin{array}{ll} re & PAG (ξ < 1) \\ 1 & 0,68 \\ 2 & 0,39 \\ 3 3 & 0,20 \\ 4 4 & 0,090 \\ 5 5 & 0,037 \\ 6 6 & 0,014 \\ 7 7 & 0.0052 \\ 8 & 0.0018 \\ 9 9 & 0.00056 \\ 10 & 0.00017 \end{array}

$\begin{array}{ll} d& P(\xi < 1)\\ 1 & 0.68\\ 2 & 0.39 \\ 3 & 0.20 \\ 4 & 0.090 \\ 5 & 0.037 \\ 6 & 0.014 \\ 7 & 0.0052 \\ 8 & 0.0018\\ 9 & 0.00056\\ 10& 0.00017\\ \end{array}$

Y para 2 sd:

\begin{array}{ll} re & PAG (ξ < 4 4) \\ 1 & 0,95 \\ 2 & 0,86 \\ 3 3 & 0,74 \\ 4 4 & 0,59 \\ 5 5 & 0,45 \\ 6 6 & 0,32 \\ 7 7 & 0,22 \\ 8 & 0,14 \\ 9 9 & 0,089 \\ 10 & 0,053 \end{array}

$\begin{array}{ll} d & P(\xi < 4)\\ 1 & 0.95\\ 2 & 0.86\\ 3 & 0.74\\ 4 & 0.59\\ 5 & 0.45\\ 6 & 0.32\\ 7 & 0.22\\ 8 & 0.14\\ 9 & 0.089\\ 10 & 0.053\\ \end{array}$

Usted puede obtener estos valores en R con commads como pchisq(1,df=1:10), pchisq(4,df=1:10), etc.

Post Scriptum Como el cardenal señaló en los comentarios, uno puede estimar el comportamiento asintótico de estas probabilidades. El CDF de un variable es $\chi^2(d)$ dondees laincompleta -Función, y clásicamente

F_{re} (X) = PAG (re / / 2, X / / 2) = \frac{γ (re / / 2, X / / 2)}{Γ (re / / 2)}

$F_d(x) = P(d/2,x/2) = {\gamma(d/2, x/2) \over \Gamma(d/2)}$

γ (s, y) = \int_{0}^{y} t^{s - 1} e^{- t} d t

$\gamma(s,y) = \int_0^y t^{s-1} e^{-t} \mathrm d t$

γ

$\gamma$

Γ (s) = \int_{0}^{\infty} t^{s - 1} e^{- t} d t

$\Gamma(s) = \int_0^\infty t^{s-1} e^{-t} \mathrm d t$

Cuando es un número entero, la integración repetida por partes muestra que $s$ que es la cola del CDF de la distribución de Poisson.

P (s, y) = e^{- y} \sum_{k = s}^{\infty} \frac{y^{k}}{k!},

$P(s,y) = e^{-y} \sum_{k=s}^\infty {y^k \over k!},$

Ahora esta suma está dominada por su primer término (muchas gracias al cardenal): $P(s,y) \sim {y^s \over s!} e^{-y}$ $s$ $d$

P (ξ < x) = P (d / 2, x / 2) \sim \frac{1}{(d / 2)!} {(\frac{x}{2})}^{d / 2} e^{- x / 2} \sim \frac{1}{\sqrt{π d}} e^{\frac{1}{2} (d - x)} {(\frac{x}{d})}^{\frac{d}{2}} \sim \frac{1}{\sqrt{π}} e^{- \frac{1}{2} x} d^{- \frac{1}{2} d},

$P(\xi < x) = P(d/2,x/2) \sim {1 \over (d/2)!} \left({x\over 2}\right)^{d/2} e^{-x/2} \sim {1\over\sqrt{\pi d}}e^{{1\over 2}(d-x)} \left({x\over d}\right)^{d\over 2} \sim {1\over\sqrt\pi} e^{-{1\over 2}x} d^{-{1\over 2}d},$

d

$d$

d

$d$

— Elvis
fuente

¡Bienvenido a nuestro sitio, Elvis! Buena respuesta. (+1)

— whuber

(+1) Buena respuesta. Aquí hay un par de sugerencias para su consideración: ( 1 ) Podría ser útil hacer explícito qué

ξ

$\xi$

d

$d$

Gracias por tus comentarios. ¡No pensé que esta respuesta recibiría mucha atención! Es cierto que esta es una buena forma de la maldición de la dimensionalidad ... @cardinal acerca de (3) No conozco ningún equivalente asintótico de la función gamma incompleta cuando los primeros parámetros van al infinito, el segundo está arreglado, esto ¡no es fácil! Se podría hacer una majoración áspera, puedo escribir eso más tarde.

— Elvis

d

$d$

d = 2 k

$d = 2 k$

Z_{i} = X_{2 i - 1}^{2} + X_{2 i}^{2}

$Z_i = X_{2i-1}^2 + X_{2i}^2$

E x p (1 / 2)

$\mathrm{Exp}(1/2)$

‖ X ‖^{2} = \sum_{i = 1}^{k} Z_{i}

$\|X\|^2 = \sum_{i=1}^k Z_i$ . Pero entonces

‖ X ‖^{2}

$\|X\|^2$ es justo el tiempo hasta que el

k

$k$ Renovación de un proceso de Poisson con tasa 1/2. Entonces

P (‖ X ‖^{2} < 1) = P (N_{1 / 2} (0, 1) \geq k) = e^{- 1 / 2} \sum_{x = k}^{\infty} 2^{- x} / x!

$\mathbb P(\|X\|^2 < 1 ) = \mathbb P( N_{1/2}(0,1) \geq k) = e^{-1/2} \sum_{x=k}^\infty 2^{-x}/x!$ . La cola del Poisson está dominada por el término principal, por lo que

P (‖ X ‖^{2} < 1) \sim e^{- 1 / 2} 2^{- k} / Γ (k + 1)

$\mathbb P(\|X\|^2 < 1) \sim e^{-1/2} 2^{-k} / \Gamma(k+1)$ como

d \to \infty

$d\to\infty$ (De nuevo:

k = d / 2

$k = d/2$ )

— cardenal

Parte del punto del comentario anterior es que obtenemos una respuesta exacta para todos, incluso

d

$d$ . Además, usando la aproximación de Stirling, obtenemos que

P (‖ X ‖^{2} < 1) \sim e^{- 1 / 2} 2^{- k} / Γ (k + 1) \sim e^{(d - 1) / 2} d^{- (d + 1) / 2} / \sqrt{π}

$\mathbb P(\|X\|^2 < 1 ) \sim e^{-1/2} 2^{-k} / \Gamma(k+1) \sim e^{(d-1)/2} d^{-(d+1)/2} / \sqrt{\pi}$ .

— cardenal