La declaración clásica del Teorema del límite central (CLT) considera una secuencia de variables aleatorias independientes, distribuidas idénticamenteX1,X2, ... ,Xnorte, ... con distribución común F. Esta secuencia modela la situación que enfrentamos al diseñar un programa de muestreo o experimento: si podemos obtenernorteobservaciones independientes del mismo fenómeno subyacente, luego la colección finitaX1,X2, ... ,Xnortemodela los datos anticipados. Permitir que la secuencia sea infinita es una forma conveniente de contemplar tamaños de muestra arbitrariamente grandes.
Varias leyes de grandes números afirman que la media
m (X1,X2, ... ,Xnorte) =1norte(X1+X2+ ⋯ +Xnorte)
se acercará de cerca a la expectativa de F, μ ( F), con alta probabilidad, siempre FEn realidad tiene una expectativa. (No todas las distribuciones lo hacen). Esto implica la desviaciónm (X1,X2, ... ,Xnorte) - μ ( F) (que, en función de estos norte variables aleatorias, también es una variable aleatoria) tenderá a reducirse a medida que norteaumenta El CLT se suma a esto de una manera mucho más específica: establece (bajo algunas condiciones, que analizaré a continuación) que si volvemos a escalar esta desviación pornorte--√, tendrá una función de distribución Fnorteque se acerca a alguna función de distribución Normal de media cero comonortecrece grande (Mi respuesta en https://stats.stackexchange.com/a/3904 intenta explicar por qué esto es así y por qué el factor denorte--√ es el correcto para usar.)
Esta no es una declaración estándar del CLT. Vamos a conectarlo con el habitual. Esa distribución normal de media cero limitante estará completamente determinada por un segundo parámetro, que generalmente se elige como una medida de su propagación (¡naturalmente!), Como su varianza o desviación estándar. Dejarσ2sea su varianza Seguramente debe tener alguna relación con una propiedad similar deF. Para descubrir de qué se trata, dejemosF tener una varianza τ2--que podría ser infinito, por cierto. Independientemente, porque elXyo son independientes, calculamos fácilmente la varianza de las medias:
Var ( m (X1,X2, ... ,Xnorte) )= Var (1norte(X1+X2+ ⋯ +Xnorte) )=(1norte)2( Var (X1) + Var (X2) + ⋯ + Var (Xnorte) )=(1norte)2(τ2+τ2+ ⋯ +τ2)=τ2norte.
En consecuencia, la varianza de los residuos estandarizados es igual a τ2/ n×(norte--√)2=τ2: es constante La varianza de la distribución normal limitante, entonces, debe serτ2sí mismo. (Esto muestra inmediatamente que el teorema solo puede sostenerse cuandoτ2 es finito: esa es la suposición adicional que pasé por alto anteriormente).
(Si hubiéramos elegido cualquier otra medida de propagación de F aún podríamos tener éxito en conectarlo a σ2, pero no habríamos encontrado que la medida correspondiente de propagación de la desviación media estandarizada es constante para todos norte, que es una hermosa, aunque no esencial, simplificación).
Si hubiéramos deseado, podríamos haber estandarizado las desviaciones medias todo el tiempo dividiéndolas por τ así como multiplicarlos por norte--√. Eso habría asegurado que la distribución limitante es Normal estándar , con varianza unitaria. Ya sea que elija estandarizar porτ de esta manera o no es realmente una cuestión de gustos: es el mismo teorema y la misma conclusión al final. Lo que importaba era la multiplicación pornorte--√.
Tenga en cuenta que podría multiplicar las desviaciones por algún factor que no sea norte--√. Podrías usarnorte--√+ exp( - n )o norte1 / 2 + 1 / n, o cualquier otra cosa que se comporta asintóticamente como norte--√. Cualquier otra forma asintótica, en el límite, reduciríaσ2 a 0 0 o explotarlo ∞. Esta observación refina nuestra apreciación del CLT al mostrar hasta qué punto es flexible con respecto a cómo se realiza la estandarización. Es posible que deseemos indicar el CLT, entonces, de la siguiente manera.
Proporcionó la desviación entre la media de una secuencia de variables IID (con distribución común F) y la expectativa subyacente se escala asintóticamente por norte--√, esta desviación escalada tendrá una distribución limitante normal de media cero cuya varianza es la de F.
Aunque las variaciones están involucradas en la declaración, aparecen solo porque son necesarias para caracterizar la distribución normal limitante y relacionar su propagación con la de F. Este es solo un aspecto incidental. No tiene nada que ver con que la varianza sea "la mejor" en ningún sentido. El quid de la cuestión es el cambio de escala asintótico pornorte--√.