Considere la suma de distribuciones uniformes en , o . ¿Por qué desaparece la cúspide en el PDF de para ?


40

Me he estado preguntando sobre esto por un tiempo; Me resulta un poco extraño lo abruptamente que sucede. Básicamente, ¿por qué necesitamos solo tres uniformes para que suavice como lo hace? ¿Y por qué el suavizado ocurre tan rápido?Zn

Z2 :

2

Z3 :

3

(Imágenes robadas descaradamente del blog de John D. Cook: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ )

¿Por qué no lleva, digamos, cuatro uniformes? O cinco? O...?


11
bueno, para ser tan simple como fácil, porque la suma de 3 uniformes tiene segmentos cuadráticos en su pf, y una vez que obtienes dos o más uniformes tienes un pico en la media. Un pico cuadrático es "suave" ... y las uniones entre las piezas cuadráticas están en 1 y 2, por lo que no puede doblarse en 1.5; hay otras formas de llegar a la misma conclusión
Glen_b -Reinstate a Monica el

Respuestas:


71

Podemos adoptar varios enfoques para esto, cualquiera de los cuales puede parecer intuitivo para algunas personas y menos intuitivo para otras. Para acomodar tal variación, esta respuesta examina varios de estos enfoques, cubriendo las principales divisiones del pensamiento matemático - análisis (el infinito e infinitesimal), geometría / topología (relaciones espaciales) y álgebra (patrones formales de manipulación simbólica) - como así como la probabilidad misma. Culmina en una observación que unifica los cuatro enfoques, demuestra que hay una pregunta genuina a responder aquí y muestra exactamente cuál es el problema. Cada enfoque proporciona, a su manera, una visión más profunda de la naturaleza de las formas de las funciones de distribución de probabilidad de sumas de variables uniformes independientes.


Fondo

La distribución Uniforme[0,1] tiene varias descripciones básicas. Cuando tiene tal distribución,X

  1. La posibilidad de que encuentre en un conjunto medible es solo la medida (longitud) de , escrita.A A [ 0 , 1 ] | A [ 0 , 1 ] |XAA[0,1]|A[0,1]|

  2. De esto es inmediato que la función de distribución acumulativa (CDF) es

    FX(x)=Pr(Xx)=|(,x][0,1]|=|[0,min(x,1)]|={0x<0x0x11x>1.

    CDF

  3. La función de densidad de probabilidad (PDF), que es la derivada del CDF, es para y contrario. (No está definido en y ).0 x 1 f X ( x ) = 0 0 1fX(x)=10x1fX(x)=001

    PDF


Intuición de funciones características (análisis)

La función característica (CF) de cualquier variable aleatoria es la expectativa de (donde es la unidad imaginaria, ). Usando el PDF de una distribución uniforme podemos calcularexp ( i t X ) i i 2 = - 1Xexp(itX)ii2=1

ϕX(t)=exp(itx)fX(x)dx=01exp(itx)dx=exp(itx)it|x=0x=1=exp(it)1it.

El CF es una (versión de) la transformada de Fourier del PDF, . Los teoremas más básicos sobre las transformadas de Fourier son:ϕ(t)=f^(t)

  • El CF de una suma de variables independientes es el producto de sus CF.X+Y

  • Cuando el PDF original es continuo y está limitado, puede recuperarse de CF mediante una versión estrechamente relacionada de la transformada de FourierX f ϕfXfϕ

f(x)=ϕˇ(x)=12πexp(ixt)ϕ(t)dt.
  • Cuando es diferenciable, su derivada se puede calcular bajo el signo integral:f

    f(x)=ddx12πexp(ixt)ϕ(t)dt=i2πtexp(ixt)ϕ(t)dt.

    Para que esto esté bien definido, la última integral debe converger absolutamente; es decir,

    |texp(ixt)ϕ(t)|dt=|t||ϕ(t)|dt

    debe converger a un valor finito. Por el contrario, cuando converge, la derivada existe en todas partes en virtud de estas fórmulas de inversión.

Ahora está claro exactamente cuán diferenciable es el PDF para una suma de variables uniformes: desde la primera viñeta, el CF de la suma de las variables iid es el CF de una de ellas elevada a la potencia , aquí igual a . El numerador está acotado (consiste en ondas sinusoidales) mientras que el denominador es . Podemos multiplicar dicho integrando por y aún convergerá absolutamente cuando y convergerá condicionalmente cuando . Por lo tanto, la aplicación repetida de la tercera viñeta muestra que el PDF para la suma de variables uniformes será continuamenten th ( exp ( i t ) - 1 ) n / ( i t ) n O ( t n ) t s s < n - 1 s = n - 1 n n - 2 n - 1nnth(exp(it)1)n/(it)nO(tn)tss<n1s=n1nn2veces diferenciable y, en la mayoría de los lugares, será veces diferenciable.n1

CF para n = 10

La curva sombreada azul es un gráfico log-log del valor absoluto de la parte real de la CF de la suma de iid variables uniformes. La línea roja discontinua es una asíntota; su pendiente es , lo que muestra que el PDF es veces diferenciable. Como referencia, la curva gris traza la parte real de la FC para una función gaussiana de forma similar (un PDF normal).- 10 10 - 2 = 8n=1010102=8


Intuición de la probabilidad

Deje que y sean variables aleatorias independientes donde tiene una distribución Uniforme . Considere un intervalo estrecho . Descomponemos la posibilidad de que en la posibilidad de que esté suficientemente cerca de este intervalo multiplicado por la probabilidad de que sea ​​del tamaño correcto para colocar en este intervalo, dado que está lo suficientemente cerca:X X [ 0 , 1 ] ( t , t + d t ] X + Y ( t , t + d t ] Y X X + Y YYXX[0,1](t,t+dt]X+Y(t,t+dt]YXX+YY

fX+Y(t)dt=Pr(X+Y(t,t+dt])=Pr(X+Y(t,t+dt]|Y(t1,t+dt])Pr(Y(t1,t+dt])=Pr(X(tY,tY+dt]|Y(t1,t+dt])(FY(t+dt)FY(t1))=1dt(FY(t+dt)FY(t1)).

La igualdad final proviene de la expresión para el PDF de . Dividiendo ambos lados por y tomando el límite como dad t d t 0Xdtdt0

fX+Y(t)=FY(t)FY(t1).

En otras palabras, agregar una variable uniforme a cualquier variable cambia el pdf a un CDF diferenciado . Debido a que el PDF es la derivada del CDF, esto implica que cada vez que agregamos una variable uniforme independiente a , el PDF resultante es una vez más diferenciable que antes.X Y f Y F Y ( t ) - F Y ( t - 1 ) Y[0,1]XYfYFY(t)FY(t1)Y

Vamos a aplicar este conocimiento, a partir de una variable uniforme . El PDF original no es diferenciable en o : allí es discontinuo. La PDF de no es diferenciable en , , o , pero debe ser continuo en esos puntos, ya que es la diferencia de las integrales de la PDF de . Agregue otra variable uniforme independiente : el PDF de es diferenciable en , , y , pero no necesariamente tiene un segundo0 1 Y + X 0 1 2 Y X 2 Y + X + X 2 0 1 2 3Y01Y+X012YX2Y+X+X2 0123derivados en esos puntos. Y así.


Intuición de la geometría

El CDF en de una suma de iid variables uniformes es igual al volumen de la unidad hipercubo encuentra dentro del medio espacio . Aquí se muestra la situación para variantes, con establecido en , y luego .n [ 0 , 1 ] n x 1 + x 2 + + x nt n = 3 t 1 / 2 3 / 2 5 / 2tn[0,1]nx1+x2++xntn=3t1/23/25/2

Cubo 3D

A medida que progresa de a , el hiperplano cruza los vértices en , . En cada momento, la forma de la sección transversal cambia: en la figura, primero es un triángulo (un simple), luego un hexágono, luego un triángulo nuevamente. ¿Por qué el PDF no tiene curvas cerradas en estos valores de ?0 n H n ( t ) : x 1 + x 2 + + x n = t t = 0 t = 1 , , t = n 2 tt0nHn(t):x1+x2++xn=tt=0t=1,,t=n2t

Para entender esto, primero considere pequeños valores de . Aquí, el hiperplano corta un -simplex. Todas dimensiones del símplex son directamente proporcionales a , por lo que su "área" es proporcional a . Alguna notación para esto será útil más tarde. Sea la "función de paso de unidad"H n ( t ) n - 1 n - 1 t t n - 1 θtHn(t)n1n1ttn1θ

θ(x)={0x<01x0.

Si no fuera por la presencia de las otras esquinas del hipercubo, esta escala continuaría indefinidamente. Un gráfico del área del -simplex se vería como la curva azul sólida a continuación: ¡es cero en valores negativos e igual a¡en el positivo, convenientemente escrito. Tiene un "nudo" del orden en el origen, en el sentido de que todas las derivadas a través del orden existen y son continuas, pero que las derivadas izquierda y derecha del orden existen pero no están de acuerdo en el origen .t n - 1 / ( n - 1 ) ! θ ( t ) t n - 1 / ( n - 1 ) ! n - 2 n - 3 n - 2n1tn1/(n1)!θ(t)tn1/(n1)!n2n3n2

(Las otras curvas que se muestran en esta figura son (Rojo), (Oro) y (Negro). Sus funciones en el caso se analizan más adelante).3 θ ( t - 2 ) ( t - 2 ) 2 / 2 ! - θ ( t - 3 ) ( t - 3 ) 2 / 2 ! n = 33θ(t1)(t1)2/2!3θ(t2)(t2)2/2!θ(t3)(t3)2/2!n=3

Parcela de área simple

Para comprender lo que sucede cuando cruza , examinemos en detalle el caso , donde toda la geometría ocurre en un plano. Podemos ver la unidad "cubo" (ahora solo un cuadrado) como una combinación lineal de cuadrantes , como se muestra aquí:1 n = 2t1n=2

Cuadrantes

El primer cuadrante aparece en el panel inferior izquierdo, en gris. El valor de es , determinando la línea diagonal que se muestra en los cinco paneles. El CDF es igual al área amarilla que se muestra a la derecha. Esta área amarilla se compone de:1.5t1.5

  1. El área gris triangular en el panel inferior izquierdo,

  2. menos el área verde triangular en el panel superior izquierdo,

  3. menos el área roja triangular en el panel central bajo,

  4. más cualquier área azul en el panel central superior (pero no existe tal área, ni la habrá hasta que exceda ).2t2

Cada una de estas áreas es el área de un triángulo. La primera escala como , las siguientes dos son cero para y, de lo contrario, escala como , y la última es cero para y de lo contrario escalas como . Este análisis geométrico ha establecido que el CDF es proporcional a = ; de manera equivalente, el PDF es proporcional a la suma de las tres funciones , yt n = t 2 t < 1 ( t - 1 ) n = ( t - 1 ) 2 t < 2 ( t - 2 ) n θ ( t ) t 2 - θ ( t - 1 ) ( t - 1 ) 2 - θ ( t - 1 ) (2n=4tn=t2t<1(t1)n=(t1)2t<2(t2)n θ ( t ) t 2 - 2 θ ( t - 1 ) ( t - 1 ) 2 + θ ( t - 2 ) ( t - 2 ) 2 θ ( t ) t - 2 θ ( tθ(t)t2θ(t1)(t1)2θ(t1)(t1)2+θ(t2)(t2)2θ(t)t22θ(t1)(t1)2+θ(t2)(t2)2θ(t)tθ ( t - 2 ) ( t - 2 ) n = 2 θ ( t ) t 0 1 2 1 - 2 12θ(t1)(t1)θ(t2)(t2)(cada uno de ellos escalando linealmente cuando ). El panel izquierdo de esta figura muestra sus gráficos: evidentemente, son todas las versiones del gráfico original , pero (a) desplazado por , y unidades a la derecha y (b) reescalado por , y , respectivamente.n=2θ(t)t012121

Gráficos para n = 2

El panel derecho muestra la suma de estos gráficos (la curva negra sólida, normalizada para tener un área unitaria: este es precisamente el PDF de aspecto angular que se muestra en la pregunta original.

Ahora podemos entender la naturaleza de los "pliegues" en el PDF de cualquier suma de variables uniformes iid. Todos son exactamente como el "pliegue" que ocurre en en la función , posiblemente reescalada y desplazada a los enteros correspondientes a donde está el hiperplano cruza los vértices del hipercubo. Para , este es un cambio visible en la dirección: la derivada derecha de en es mientras que su derivada izquierda es . Para , este es un continuoθ ( t ) t n - 1 1 , 2 , , n H n ( t ) n = 2 θ ( t ) t 0 0 1 n = 3 n n - 2 n - 1 st0θ(t)tn11,2,,nHn(t)n=2θ(t)t001n=3cambio de dirección, pero un cambio repentino (discontinuo) en la segunda derivada. Para general , habrá derivadas continuas a través del orden pero una discontinuidad en la derivada .nn2n1st


Intuición de la manipulación algebraica

La integración para calcular el CF, la forma de la probabilidad condicional en el análisis probabilístico y la síntesis de un hipercubo como una combinación lineal de cuadrantes sugieren volver a la distribución uniforme original y volver a expresarla como una combinación lineal de cosas más simples. . De hecho, su PDF se puede escribir

fX(x)=θ(x)θ(x1).

Presentemos el operador shift : actúa sobre cualquier función desplazando su gráfico una unidad a la derecha:fΔf

(Δf)(x)=f(x1).

Formalmente, entonces, para el PDF de una variable uniforme podemos escribirX

fX=(1Δ)θ.

El PDF de una suma de uniformes iid es la convolución de consigo mismo veces. Esto se deduce de la definición de una suma de variables aleatorias: la convolución de dos funciones y es la funciónf X n f gnfXnfg

(fg)(x)=f(xy)g(y)dy.

Es fácil verificar que la convolución conmuta con . Simplemente cambie la variable de integración de a :y y + 1Δyy+1

(f(Δg))=f(xy)(Δg)(y)dy=f(xy)g(y1)dy=f((x1)y)g(y)dy=(Δ(fg))(x).

Para el PDF de la suma de uniformes iid, ahora podemos proceder algebraicamente a escribirn

f=fXn=((1Δ)θ)n=(1Δ)nθn

(donde el "poder" denota convolución repetida, no multiplicación puntual! Ahora es una integración directa, elemental, que daθ nnθn

θn(x)=θ(x)xn1n1!.

El resto es álgebra, porque se aplica el teorema binomial (como ocurre en cualquier álgebra conmutativa sobre los reales):

f=(1Δ)nθn=i=0n(1)i(ni)Δiθn.

Debido a que simplemente cambia su argumento por , esto exhibe el PDF como una combinación lineal de versiones desplazadas de , exactamente como dedujimos geométricamente: i f θ ( x ) x n - 1Δiifθ(x)xn1

f(x)=1(n1)!i=0n(1)i(ni)(xi)n1θ(xi).

(John Cook cita esta fórmula más adelante en su publicación de blog, usando la notación para .) ( x - i ) n - 1 θ ( x - i )(xi)+n1(xi)n1θ(xi)

En consecuencia, debido a que es una función uniforme en todas partes, cualquier comportamiento singular del PDF ocurrirá solo en lugares donde es singular (obviamente solo ) y en esos lugares desplazados a la derecha por . La naturaleza de ese comportamiento singular, el grado de suavidad, será, por lo tanto, igual en todas las ubicaciones . θ ( x ) 0 1 , 2 , , n n + 1xn1θ(x)01,2,,nn+1

Esto ilustra la imagen para , que muestra (en el panel izquierdo) los términos individuales en la suma y (en el panel derecho) las sumas parciales, que culminan en la suma misma (curva negra sólida):n=8

Parcela para n = 8


Comentarios de cierre

Es útil observar que este último enfoque finalmente ha producido una expresión compacta y práctica para calcular el PDF de una suma de iid variables uniformes. (Se obtiene de manera similar una fórmula para el CDF).n

El Teorema del límite central tiene poco que decir aquí. Después de todo, una suma de variables binomiales iid converge a una distribución Normal, pero esa suma siempre es discreta: ¡ni siquiera tiene un PDF en absoluto! No debemos esperar ninguna intuición sobre "torceduras" u otras medidas de diferenciabilidad de un PDF proveniente del CLT.


12
(+1) ¡Fantástico! Ahora, ¿cuánto tiempo te llevó armar todo esto?
cardenal

13
@ Cardenal Esta fue la última pregunta que leí antes de perder el poder el lunes pasado. Durante la semana siguiente, las largas tardes oscuras brindaron la oportunidad de pensarlo detenidamente :-) y, por diversión, desarrollar múltiples respuestas. Después de que se restableció el poder el fin de semana pasado, era solo cuestión de encontrar algo de tiempo para hacer las ilustraciones y escribirlas (lo que tomó más tiempo de lo esperado, lo confieso). Espero que tal vez parte de este hilo sirva como referencia para futuras preguntas relacionadas sobre sumas de variables aleatorias.
whuber

1
Guau. Desearía poder 'marcar' esta respuesta como favorita .
Ruibarbo

2
Whuber, esto es absolutamente increíble. Nunca me di cuenta de cuán profunda podría ser una pregunta tan simple. Me tomará un tiempo entender tu respuesta, pero por ahora, ¡muchas gracias!
tetragrammaton

66
Violaré la política de SE en los comentarios, al decir que nosotros (todos los crossvalidate.com) deberíamos sobornar a su compañía eléctrica para que corte el suministro eléctrico con mayor frecuencia :)
mpiktas

1

Se podría argumentar que la función de densidad de probabilidad de una variable aleatoria uniforme es finita,

así que su función de densidad acumulativa integral de una variable aleatoria uniforme es continua,

entonces la función de densidad de probabilidad de la suma de dos variables aleatorias uniformes es continua,

por lo tanto, su función de densidad acumulativa integral de la suma de dos variables aleatorias uniformes es uniforme (continuamente diferenciable),

entonces la función de densidad de probabilidad de la suma de tres variables aleatorias uniformes es suave.


1

Creo que lo más sorprendente es que obtienes el pico agudo para . norte=2

El teorema del límite central dice que para tamaños de muestra lo suficientemente grandes, la distribución de la media (y la suma es solo la media por , una constante fija para cada gráfico) será aproximadamente normal. Resulta que la distribución uniforme se comporta realmente bien con respecto al CLT (simétrica, sin colas pesadas (bueno, no hay muchas colas), sin posibilidad de valores atípicos), por lo que para el uniforme el tamaño de la muestra debe ser "suficientemente grande" "no es muy grande (alrededor de 5 o 6 para una buena aproximación), ya está viendo la aproximación correcta en .n = 3nortenorte=3

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.