Podemos adoptar varios enfoques para esto, cualquiera de los cuales puede parecer intuitivo para algunas personas y menos intuitivo para otras. Para acomodar tal variación, esta respuesta examina varios de estos enfoques, cubriendo las principales divisiones del pensamiento matemático - análisis (el infinito e infinitesimal), geometría / topología (relaciones espaciales) y álgebra (patrones formales de manipulación simbólica) - como así como la probabilidad misma. Culmina en una observación que unifica los cuatro enfoques, demuestra que hay una pregunta genuina a responder aquí y muestra exactamente cuál es el problema. Cada enfoque proporciona, a su manera, una visión más profunda de la naturaleza de las formas de las funciones de distribución de probabilidad de sumas de variables uniformes independientes.
Fondo
La distribución Uniforme[0,1] tiene varias descripciones básicas. Cuando tiene tal distribución,X
La posibilidad de que encuentre en un conjunto medible es solo la medida (longitud) de , escrita.A A ∩ [ 0 , 1 ] | A ∩ [ 0 , 1 ] |XAA∩[0,1]|A∩[0,1]|
De esto es inmediato que la función de distribución acumulativa (CDF) es
FX(x)=Pr(X≤x)=|(−∞,x]∩[0,1]|=|[0,min(x,1)]|=⎧⎩⎨⎪⎪0x1x<00≤x≤1x>1.
La función de densidad de probabilidad (PDF), que es la derivada del CDF, es para y contrario. (No está definido en y ).0 ≤ x ≤ 1 f X ( x ) = 0 0 1fX(x)=10≤x≤1fX(x)=001
Intuición de funciones características (análisis)
La función característica (CF) de cualquier variable aleatoria es la expectativa de (donde es la unidad imaginaria, ). Usando el PDF de una distribución uniforme podemos calcularexp ( i t X ) i i 2 = - 1Xexp(itX)ii2=−1
ϕX(t)=∫∞−∞exp(itx)fX(x)dx=∫10exp(itx)dx=exp(itx)it∣∣∣x=1x=0=exp(it)−1it.
El CF es una (versión de) la transformada de Fourier del PDF, . Los teoremas más básicos sobre las transformadas de Fourier son:ϕ(t)=f^(t)
El CF de una suma de variables independientes es el producto de sus CF.X+Y
Cuando el PDF original es continuo y está limitado, puede recuperarse de CF mediante una versión estrechamente relacionada de la transformada de FourierX f ϕfXfϕ
f(x)=ϕˇ(x)=12π∫∞−∞exp(−ixt)ϕ(t)dt.
Cuando es diferenciable, su derivada se puede calcular bajo el signo integral:f
f′(x)=ddx12π∫∞−∞exp(−ixt)ϕ(t)dt=−i2π∫∞−∞texp(−ixt)ϕ(t)dt.
Para que esto esté bien definido, la última integral debe converger absolutamente; es decir,
∫∞−∞|texp(−ixt)ϕ(t)|dt=∫∞−∞|t||ϕ(t)|dt
debe converger a un valor finito. Por el contrario, cuando converge, la derivada existe en todas partes en virtud de estas fórmulas de inversión.
Ahora está claro exactamente cuán diferenciable es el PDF para una suma de variables uniformes: desde la primera viñeta, el CF de la suma de las variables iid es el CF de una de ellas elevada a la potencia , aquí igual a . El numerador está acotado (consiste en ondas sinusoidales) mientras que el denominador es . Podemos multiplicar dicho integrando por y aún convergerá absolutamente cuando y convergerá condicionalmente cuando . Por lo tanto, la aplicación repetida de la tercera viñeta muestra que el PDF para la suma de variables uniformes será continuamenten th ( exp ( i t ) - 1 ) n / ( i t ) n O ( t n ) t s s < n - 1 s = n - 1 n n - 2 n - 1nnth(exp(it)−1)n/(it)nO(tn)tss<n−1s=n−1nn−2veces diferenciable y, en la mayoría de los lugares, será veces diferenciable.n−1
La curva sombreada azul es un gráfico log-log del valor absoluto de la parte real de la CF de la suma de iid variables uniformes. La línea roja discontinua es una asíntota; su pendiente es , lo que muestra que el PDF es veces diferenciable. Como referencia, la curva gris traza la parte real de la FC para una función gaussiana de forma similar (un PDF normal).- 10 10 - 2 = 8n=10−1010−2=8
Intuición de la probabilidad
Deje que y sean variables aleatorias independientes donde tiene una distribución Uniforme . Considere un intervalo estrecho . Descomponemos la posibilidad de que en la posibilidad de que esté suficientemente cerca de este intervalo multiplicado por la probabilidad de que sea del tamaño correcto para colocar en este intervalo, dado que está lo suficientemente cerca:X X [ 0 , 1 ] ( t , t + d t ] X + Y ∈ ( t , t + d t ] Y X X + Y YYXX[0,1](t,t+dt]X+Y∈(t,t+dt]YXX+YY
FX+ Y( t ) dt =Pr ( X+ Y∈ ( t , t + dt ] )= Pr ( X+ Y∈ ( t , t + dt ] | Y∈ ( t - 1 , t + dt ] ) Pr ( Y∈ ( t - 1 , t + dt ] )= Pr ( X∈(t−Y,t−Y+dt]|Y∈(t−1,t+dt])(FY(t+dt)−FY(t−1))=1dt(FY(t+dt)−FY(t−1)).
La igualdad final proviene de la expresión para el PDF de . Dividiendo ambos lados por y tomando el límite como dad t d t → 0Xdtdt→0
fX+Y(t)=FY(t)−FY(t−1).
En otras palabras, agregar una variable uniforme a cualquier variable cambia el pdf a un CDF diferenciado . Debido a que el PDF es la derivada del CDF, esto implica que cada vez que agregamos una variable uniforme independiente a , el PDF resultante es una vez más diferenciable que antes.X Y f Y F Y ( t ) - F Y ( t - 1 ) Y[0,1]XYfYFY(t)−FY(t−1)Y
Vamos a aplicar este conocimiento, a partir de una variable uniforme . El PDF original no es diferenciable en o : allí es discontinuo. La PDF de no es diferenciable en , , o , pero debe ser continuo en esos puntos, ya que es la diferencia de las integrales de la PDF de . Agregue otra variable uniforme independiente : el PDF de es diferenciable en , , y , pero no necesariamente tiene un segundo0 1 Y + X 0 1 2 Y X 2 Y + X + X 2 0 1 2 3Y01Y+X012YX2Y+X+X2 0123derivados en esos puntos. Y así.
Intuición de la geometría
El CDF en de una suma de iid variables uniformes es igual al volumen de la unidad hipercubo encuentra dentro del medio espacio . Aquí se muestra la situación para variantes, con establecido en , y luego .n [ 0 , 1 ] n x 1 + x 2 + ⋯ + x n ≤ t n = 3 t 1 / 2 3 / 2 5 / 2tn[0,1]nx1+x2+⋯+xn≤tn=3t1/23/25/2
A medida que progresa de a , el hiperplano cruza los vértices en , . En cada momento, la forma de la sección transversal cambia: en la figura, primero es un triángulo (un simple), luego un hexágono, luego un triángulo nuevamente. ¿Por qué el PDF no tiene curvas cerradas en estos valores de ?0 n H n ( t ) : x 1 + x 2 + ⋯ + x n = t t = 0 t = 1 , … , t = n 2 tt0nHn(t):x1+x2+⋯+xn=tt=0t=1,…,t=n2t
Para entender esto, primero considere pequeños valores de . Aquí, el hiperplano corta un -simplex. Todas dimensiones del símplex son directamente proporcionales a , por lo que su "área" es proporcional a . Alguna notación para esto será útil más tarde. Sea la "función de paso de unidad"H n ( t ) n - 1 n - 1 t t n - 1 θtHn(t)n−1n−1ttn−1θ
θ(x)={01x<0x≥0.
Si no fuera por la presencia de las otras esquinas del hipercubo, esta escala continuaría indefinidamente. Un gráfico del área del -simplex se vería como la curva azul sólida a continuación: ¡es cero en valores negativos e igual a¡en el positivo, convenientemente escrito. Tiene un "nudo" del orden en el origen, en el sentido de que todas las derivadas a través del orden existen y son continuas, pero que las derivadas izquierda y derecha del orden existen pero no están de acuerdo en el origen .t n - 1 / ( n - 1 ) ! θ ( t ) t n - 1 / ( n - 1 ) ! n - 2 n - 3 n - 2n−1tn−1/(n−1)!θ(t)tn−1/(n−1)!n−2n−3n−2
(Las otras curvas que se muestran en esta figura son (Rojo), (Oro) y (Negro). Sus funciones en el caso se analizan más adelante).3 θ ( t - 2 ) ( t - 2 ) 2 / 2 ! - θ ( t - 3 ) ( t - 3 ) 2 / 2 ! n = 3−3θ(t−1)(t−1)2/2!3θ(t−2)(t−2)2/2!−θ(t−3)(t−3)2/2!n=3
Para comprender lo que sucede cuando cruza , examinemos en detalle el caso , donde toda la geometría ocurre en un plano. Podemos ver la unidad "cubo" (ahora solo un cuadrado) como una combinación lineal de cuadrantes , como se muestra aquí:1 n = 2t1n=2
El primer cuadrante aparece en el panel inferior izquierdo, en gris. El valor de es , determinando la línea diagonal que se muestra en los cinco paneles. El CDF es igual al área amarilla que se muestra a la derecha. Esta área amarilla se compone de:1.5t1.5
El área gris triangular en el panel inferior izquierdo,
menos el área verde triangular en el panel superior izquierdo,
menos el área roja triangular en el panel central bajo,
más cualquier área azul en el panel central superior (pero no existe tal área, ni la habrá hasta que exceda ).2t2
Cada una de estas áreas es el área de un triángulo. La primera escala como , las siguientes dos son cero para y, de lo contrario, escala como , y la última es cero para y de lo contrario escalas como . Este análisis geométrico ha establecido que el CDF es proporcional a = ; de manera equivalente, el PDF es proporcional a la suma de las tres funciones , yt n = t 2 t < 1 ( t - 1 ) n = ( t - 1 ) 2 t < 2 ( t - 2 ) n θ ( t ) t 2 - θ ( t - 1 ) ( t - 1 ) 2 - θ ( t - 1 ) (2n=4tn=t2t<1(t−1)n=(t−1)2t<2(t−2)n θ ( t ) t 2 - 2 θ ( t - 1 ) ( t - 1 ) 2 + θ ( t - 2 ) ( t - 2 ) 2 θ ( t ) t - 2 θ ( tθ(t)t2−θ(t−1)(t−1)2−θ(t−1)(t−1)2+θ(t−2)(t−2)2θ(t)t2−2θ(t−1)(t−1)2+θ(t−2)(t−2)2θ(t)tθ ( t - 2 ) ( t - 2 ) n = 2 θ ( t ) t 0 1 2 1 - 2 1−2θ(t−1)(t−1)θ(t−2)(t−2)(cada uno de ellos escalando linealmente cuando ). El panel izquierdo de esta figura muestra sus gráficos: evidentemente, son todas las versiones del gráfico original , pero (a) desplazado por , y unidades a la derecha y (b) reescalado por , y , respectivamente.n=2θ(t)t0121−21
El panel derecho muestra la suma de estos gráficos (la curva negra sólida, normalizada para tener un área unitaria: este es precisamente el PDF de aspecto angular que se muestra en la pregunta original.
Ahora podemos entender la naturaleza de los "pliegues" en el PDF de cualquier suma de variables uniformes iid. Todos son exactamente como el "pliegue" que ocurre en en la función , posiblemente reescalada y desplazada a los enteros correspondientes a donde está el hiperplano cruza los vértices del hipercubo. Para , este es un cambio visible en la dirección: la derivada derecha de en es mientras que su derivada izquierda es . Para , este es un continuoθ ( t ) t n - 1 1 , 2 , … , n H n ( t ) n = 2 θ ( t ) t 0 0 1 n = 3 n n - 2 n - 1 st0θ(t)tn−11,2,…,nHn(t)n=2θ(t)t001n=3cambio de dirección, pero un cambio repentino (discontinuo) en la segunda derivada. Para general , habrá derivadas continuas a través del orden pero una discontinuidad en la derivada .nn−2n−1st
Intuición de la manipulación algebraica
La integración para calcular el CF, la forma de la probabilidad condicional en el análisis probabilístico y la síntesis de un hipercubo como una combinación lineal de cuadrantes sugieren volver a la distribución uniforme original y volver a expresarla como una combinación lineal de cosas más simples. . De hecho, su PDF se puede escribir
fX(x)=θ(x)−θ(x−1).
Presentemos el operador shift : actúa sobre cualquier función desplazando su gráfico una unidad a la derecha:fΔf
(Δf)(x)=f(x−1).
Formalmente, entonces, para el PDF de una variable uniforme podemos escribirX
fX=(1−Δ)θ.
El PDF de una suma de uniformes iid es la convolución de consigo mismo veces. Esto se deduce de la definición de una suma de variables aleatorias: la convolución de dos funciones y es la funciónf X n f gnfXnfg
(f⋆g)(x)=∫∞−∞f(x−y)g(y)dy.
Es fácil verificar que la convolución conmuta con . Simplemente cambie la variable de integración de a :y y + 1Δyy+1
(f⋆(Δg))=∫∞−∞f(x−y)(Δg)(y)dy=∫∞−∞f(x−y)g(y−1)dy=∫∞−∞f((x−1)−y)g(y)dy=(Δ(f⋆g))(x).
Para el PDF de la suma de uniformes iid, ahora podemos proceder algebraicamente a escribirn
f=f⋆nX=((1−Δ)θ)⋆n=(1−Δ)nθ⋆n
(donde el "poder" denota convolución repetida, no multiplicación puntual! Ahora es una integración directa, elemental, que daθ ⋆ n⋆nθ⋆n
θ⋆n(x)=θ(x)xn−1n−1!.
El resto es álgebra, porque se aplica el teorema binomial (como ocurre en cualquier álgebra conmutativa sobre los reales):
f=(1−Δ)nθ⋆n=∑i=0n(−1)i(ni)Δiθ⋆n.
Debido a que simplemente cambia su argumento por , esto exhibe el PDF como una combinación lineal de versiones desplazadas de , exactamente como dedujimos geométricamente: i f θ ( x ) x n - 1Δiifθ(x)xn−1
f(x)=1(n−1)!∑i=0n(−1)i(ni)(x−i)n−1θ(x−i).
(John Cook cita esta fórmula más adelante en su publicación de blog, usando la notación para .) ( x - i ) n - 1 θ ( x - i )(x−i)n−1+(x−i)n−1θ(x−i)
En consecuencia, debido a que es una función uniforme en todas partes, cualquier comportamiento singular del PDF ocurrirá solo en lugares donde es singular (obviamente solo ) y en esos lugares desplazados a la derecha por . La naturaleza de ese comportamiento singular, el grado de suavidad, será, por lo tanto, igual en todas las ubicaciones . θ ( x ) 0 1 , 2 , … , n n + 1xn−1θ(x)01,2,…,nn+1
Esto ilustra la imagen para , que muestra (en el panel izquierdo) los términos individuales en la suma y (en el panel derecho) las sumas parciales, que culminan en la suma misma (curva negra sólida):n=8
Comentarios de cierre
Es útil observar que este último enfoque finalmente ha producido una expresión compacta y práctica para calcular el PDF de una suma de iid variables uniformes. (Se obtiene de manera similar una fórmula para el CDF).n
El Teorema del límite central tiene poco que decir aquí. Después de todo, una suma de variables binomiales iid converge a una distribución Normal, pero esa suma siempre es discreta: ¡ni siquiera tiene un PDF en absoluto! No debemos esperar ninguna intuición sobre "torceduras" u otras medidas de diferenciabilidad de un PDF proveniente del CLT.