Sinopsis
Ha redescubierto parte de la construcción descrita en el Teorema del límite central para medianas de muestra , que ilustra un análisis de la mediana de una muestra. (El análisis obviamente se aplica, mutatis mutandis , a cualquier cuantil, no solo a la mediana). Por lo tanto, no es sorprendente que para grandes parámetros Beta (correspondientes a muestras grandes) surja una distribución Normal bajo la transformación descrita en la pregunta. Lo que es interesante es qué tan cerca de Normal es la distribución, incluso para pequeños parámetros Beta. Eso merece una explicación.
Dibujaré un análisis a continuación. Para mantener esta publicación a una longitud razonable, implica una gran cantidad de sugerentes movimientos de mano: solo pretendo señalar las ideas clave. Permítanme resumir los resultados aquí:
Cuando está cerca deα , todo es simétrico. Esto hace que la distribución transformada ya parezca Normal.β
Las funciones de la forma parecen bastante normales en primer lugar, incluso para valores pequeños de α y β (siempre que ambos excedan 1 y su relación no sea demasiado cerca de 0 o 1Φα−1(x)(1−Φ(x))β−1αβ101 ).
La aparente normalidad de la distribución transformada se debe al hecho de que su densidad consiste en una densidad normal multiplicada por una función en (2).
A medida que aumentan y β , la desviación de la Normalidad se puede medir en los términos restantes en una serie de Taylor para la densidad logarítmica. El término de orden n disminuye en proporción a las potencias ( n - 2 ) / 2 de α y β . Esto implica que eventualmente, para α y β suficientemente grandes , todos los términos de potencia n = 3αβn(n−2)/2αβαβn=3 o mayores se han vuelto relativamente pequeños, dejando solo una cuadrática: que es precisamente la densidad logarítmica de una distribución Normal.
Colectivamente, estos comportamientos explican muy bien por qué incluso para y β pequeñosαβ los cuantiles no extremos de una muestra iid Normal se ven aproximadamente normales.
Análisis
Debido a que puede ser útil generalizar, dejemos que sea cualquier función de distribución, aunque tenemos en mente F = ΦFF=Φ .
La función de densidad de una variable Beta ( α , β ) es, por definición, proporcional ag(y)(α,β)
yα−1(1−y)β−1dy.
Si es la transformación integral de probabilidad de x y se escribe f para la derivada de F , es inmediato que x tiene una densidad proporcional ay=F(x)xfFx
G(x;α,β)=F(x)α−1(1−F(x))β−1f(x)dx.
Debido a que esta es una transformación monotónica de una distribución fuertemente unimodal (una Beta), a menos que sea bastante extraña, la distribución transformada también será unimodal. Para estudiar qué tan cerca de lo normal podría ser, examinemos el logaritmo de su densidad,F
logG(x;α,β)=(α−1)logF(x)+(β−1)log(1−F(x))+logf(x)+C(1)
donde es una constante irrelevante de normalización.C
Expanda los componentes de en la serie Taylor para ordenar tres alrededor de un valor x 0 (que estará cerca de un modo). Por ejemplo, podemos escribir la expansión de log F comologG(x;α,β)x0logF
logF(x)=cF0+cF1(x−x0)+cF2(x−x0)2+cF3h3
por alguna con | h | ≤ | x - x 0 | . Use una notación similar para log ( 1 - F ) y log f . h|h|≤|x−x0|log(1−F)logf
Términos lineales
El término lineal en se convierte así(1)
g1(α,β)=(α−1)cF1+(β−1)c1−F1+cf1.
Cuando es un modo de G (x0 , esta expresión es cero. Tenga en cuenta que debido a que los coeficientes son funciones continuas de x 0 , ya que α y β varían, el modo x 0 también variará continuamente. Además, una vez que α y β son suficientemente grandes, eltérmino c f 1 se vuelve relativamente intrascendente. Si nuestro objetivo es estudiar el límite como α → ∞ y β → ∞ para el cual α : β permanece en proporción constante γG(;α,β)x0αβx0αβcf1α→∞β→∞ α:βγ, por lo tanto, podemos elegir de una vez por todas un punto base para el cualx0
γcF1+c1−F1=0.
Un buen caso es donde , donde α = β en todo momento, y F es simétrica alrededor de 0 . En ese caso, es obvio x 0 = F ( 0 ) = 1 / 2γ=1α=βF0x0=F(0)=1/2 .
Hemos logrado un método por el cual (a) en el límite, el término de primer orden en la serie de Taylor desaparece y (b) en el caso especial que se acaba de describir, el término de primer orden siempre es cero.
Términos cuadráticos
Estas son la suma
g2(α,β)=(α−1)cF2+(β−1)c1−F2+cf2.
En comparación con una distribución normal, cuyo término cuadrático es , podemos estimar que - 1 / ( 2 g 2 ( α , β ) ) es aproximadamente la varianza de G . Vamos a estandarizar G ajustando la base de x por su raíz cuadrada. Realmente no necesitamos los detalles; es suficiente entender que este cambio de escala va a multiplicar el coeficiente de ( x−(1/2)(x−x0)2/σ2−1/(2g2(α,β))GGx en la expansión de Taylor por ( - 1 / ( 2 g 2 ( α , β ) ) ) n / 2 .(x−x0)n(−1/(2g2(α,β)))n/2.
Término restante
Aquí está el punto clave: el término de orden en la expansión de Taylor es, según nuestra notación,n
gn(α,β)=(α−1)cFn+(β−1)c1−Fn+cfn.
Después de la estandarización, se convierte
g′n(α,β)=gn(α,β)(−2g2(α,β))n/2).
Both of the gi are affine combination of α and β. By raising the denominator to the n/2 power, the net behavior is of order −(n−2)/2 in each of α and β. As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.
The case when F is normal
The vanishing of the remainder term is particularly fast when F is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα−1(1−F)β−1 and normality.
This deviation is fairly small even for small α and β. To illustrate, consider the case α=β. G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in x−x0=x.
Here is a plot showing how the standardized fourth order term changes with small values of α>1:
The value starts out at 0 for α=β=1, because then the distribution obviously is Normal (Φ−1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008--which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2.