Esta respuesta espera dar un significado intuitivo del teorema del límite central, utilizando técnicas simples de cálculo (expansión de Taylor de orden 3). Aquí está el bosquejo:
- Lo que dice el CLT
- Una prueba intuitiva del CLT usando cálculo simple
- ¿Por qué la distribución normal?
Mencionaremos la distribución normal al final; porque el hecho de que eventualmente surja la distribución normal no tiene mucha intuición.
1. ¿Qué dice el teorema del límite central? Varias versiones del CLT
Hay varias versiones euivalentes del CLT. La declaración del libro de texto del CLT dice que para cualquier real y cualquier secuencia de variables aleatorias independientes con media cero y varianza 1,
Para comprender lo que es universal e intuitivo sobre el CLT, olvidemos el límite por un momento. La declaración anterior dice que si y son dos secuencias de variables aleatorias independientes, cada una con media cero y varianza 1, entonces
xX1,⋯,Xn
P(X1+⋯+Xnn−−√≤x)→n→+∞∫x−∞e−t2/22π−−√dt.
X1.,…,XnZ1,…,ZnE[f(X1+⋯+Xnn√)]−E[f(Z1+⋯+Znn√)]→n→+∞0
para cada función de indicador de la forma, para algunas reales fijas ,
La pantalla anterior representa el hecho de que el límite es el mismo sin importar las distribuciones particulares de y , siempre que las variables aleatorias sean independientes con media cero, varianza uno.
fxf(t)={1 if t<x0 if t≥x.
X1,…,XnZ1,…,Zn
Algunas otras versiones del CLT mencionan la clase de funciones de Lipschtiz que están delimitadas por 1; algunas otras versiones de CLT mencionan la clase de funciones suaves con derivada acotada del orden . Considere dos secuencias y como arriba, y para alguna función , el resultado de convergencia (CONV)kX1,…,XnZ1,…,Znf
E[f(X1+⋯+Xnn√)]−E[f(Z1+⋯+Znn√)]→n→+∞0(CONV)
Es posible establecer la equivalencia ("si y solo si") entre las siguientes afirmaciones:
- (CONV) anterior se cumple para todas las funciones de indicador de la forma para y para para alguna real fija .ff(t)=1t<xf(t)=0t≥xx
- (CONV) se mantiene para cada función de Lipschitz acotada .f:R→R
- (CONV) se cumple para todas las funciones suaves (es decir, ) con soporte compacto.C∞
- (CONV) se mantiene para cada función tres veces continuamente diferenciable con .fsupx∈R|f′′′(x)|≤1
Cada uno de los 4 puntos anteriores dice que la convergencia es válida para una gran clase de funciones. Mediante un argumento de aproximación técnica, se puede demostrar que los cuatro puntos anteriores son equivalentes, remitimos al lector al Capítulo 7, página 77 del libro de David Pollard , Guía del usuario para medir las probabilidades teóricas de las cuales esta respuesta está altamente inspirada.
Nuestra suposición para el resto de esta respuesta ...
que para alguna constante , que corresponde al punto 4 anterior. También asumiremos que las variables aleatorias tienen un tercer momento finito limitado: y
son finitas.supx∈R|f′′′(x)|≤CC>0E[|Xi|3]E[|Zi|3]
2. El valor de es universal: no depende de la distribución deE[f(X1+⋯+Xnn√)]X1,...,Xn
Demostremos que esta cantidad es universal (hasta un pequeño término de error), en el sentido de que no depende de qué colección de variables aleatorias independientes se proporcionó. Tome y dos secuencias de variables aleatorias independientes, cada una con media 0 y varianza 1, y tercer momento finito.X1,…,XnZ1,…,Zn
La idea es reemplazar iterativamente por en una de las cantidades y controlar la diferencia por cálculo básico (la idea, creo, se debe a Lindeberg). Por una expansión de Taylor, si , y entonces
donde yXiZiW=Z1+⋯+Zn−1h(x)=f(x/n−−√)h(Z1+⋯+Zn−1+Xn)h(Z1+⋯+Zn−1+Zn)=h(W)+Xnh′(W)+X2nh′′(W)2+X3n/h′′′(Mn)6=h(W)+Znh′(W)+Z2nh′′(W)2+Z3nh′′′(M′n)6
MnM′nson puntos medios dados por el teorema del valor medio. Tomando expectativa en ambas líneas, el término de orden cero es el mismo, los términos de primer orden son iguales en expectativa porque por independencia de y , y de manera similar para la segunda línea. Nuevamente, por independencia, los términos de segundo orden son los mismos que se esperan. Los únicos términos restantes son el de tercer orden, y en la expectativa la diferencia entre las dos líneas es como máximo
Aquí es un límite superior en la tercera derivada de . El denominador aparece porqueXnWE[Xnh′(W)]=E[Xn]E[h′(W)]=0
(C/6)E[|Xn|3+|Zn|3](n−−√)3.
Cf′′′(n−−√)3h′′′(t)=f′′′(t/n−−√)/(n−−√)3 .
Por independencia, la contribución de en la suma no tiene sentido porque podría reemplazarse por sin incurrir en un error mayor que la pantalla anterior.XnZn
Ahora reiteramos reemplazar por . Si entonces
Por independencia de y , y por independencia de yXn−1Zn−1W~=Z1+Z2+⋯+Zn−2+Xnh(Z1+⋯+Zn−2+Xn−1+Xn)h(Z1+⋯+Zn−2+Zn−1+Xn)=h(W~)+Xn−1h′(W~)+X2n−1h′′(W~)2+X3n−1/h′′′(M~n)6=h(W~)+Zn−1h′(W~)+Z2n−1h′′(W~)2+Z3n−1/h′′′(M~n)6.
Zn−1W~Xn−1W~, de nuevo, los términos cero, primer y segundo orden son iguales en expectativa para ambas líneas. La diferencia de expectativa entre las dos líneas es nuevamente como máximo
Seguimos iterando hasta que reemplazamos todos los 's por ' s. Al agregar los errores cometidos en cada uno de los pasos, obtenemos
como
(C/6)E[|Xn−1|3+|Zn−1|3](n−−√)3.
ZiXin∣∣E[f(X1+⋯+Xnn√)]−E[f(Z1+⋯+Znn√)]∣∣≤n(C/6)maxi=1,…,nE[|Xi|3+|Zi|3](n−−√)3.
naumenta, el lado derecho se vuelve arbitrariamente pequeño si los terceros momentos o las variables aleatorias son finitas (supongamos que es el caso). Esto significa que las expectativas de la izquierda se vuelven arbitrariamente cercanas entre sí, sin importar si la distribución de está lejos de la de .
Por independencia, la contribución de cada en la suma no tiene sentido porque podría ser reemplazada por sin incurrir en un error mayor que .
Y reemplazar todas las 's por las ' s no cambia la cantidad en más de .
X1,…,XnZ1,…,ZnXiZiO(1/(n−−√)3)XiZiO(1/n−−√)
La expectativa es, por lo tanto, universal, no depende de la distribución de . Por otro lado, la independencia y fue de suma importancia para los límites anteriores.E[f(X1+⋯+Xnn√)]X1,…,XnE[Xi]=E[Zi]=0,E[Z2i]=E[X2i]=1
3. ¿Por qué la distribución normal?
Hemos visto que la expectativa será la misma sin importar cuál sea la distribución de , hasta un pequeño error de orden .E[f(X1+⋯+Xnn√)]XiO(1/n−−√)
Pero para las aplicaciones, sería útil calcular tal cantidad. También sería útil obtener una expresión más simple para esta cantidad .E[f(X1+⋯+Xnn√)]
Dado que esta cantidad es la misma para cualquier colección , simplemente podemos elegir una colección específica de manera que la distribución sea fácil de calcular o fácil de recordar.X1,…,Xn(X1+⋯+Xn)/n−−√
Para la distribución normal , sucede que esta cantidad se vuelve realmente simple. De hecho, si son iid entonces también tiene la distribución y no depende de . Por lo tanto, si , entonces
y por el argumento anterior, para cualquier colección de variables aleatorias independientes con , luegoN(0,1)Z1,…,ZnN(0,1)Z1+⋯+Znn√N(0,1)nZ∼N(0,1)
E[f(Z1+⋯+Znn−−√)]=E[f(Z)],
X1,…,XnE[Xi]=0,E[X2i]=1
∣∣∣E[f(X1+⋯+Xnn−−√)]−E[f(Z)∣∣∣≤supx∈R|f′′′(x)|maxi=1,…,nE[|Xi|3+|Z|3]6n−−√.