¿Qué explicación intuitiva hay para el teorema del límite central?


144

En varios contextos diferentes, invocamos el teorema del límite central para justificar cualquier método estadístico que queramos adoptar (por ejemplo, aproximar la distribución binomial por una distribución normal). Entiendo los detalles técnicos de por qué el teorema es verdadero, pero justo ahora se me ocurre que realmente no entiendo la intuición detrás del teorema del límite central.

Entonces, ¿cuál es la intuición detrás del teorema del límite central?

Las explicaciones profanas serían ideales. Si se necesitan algunos detalles técnicos, suponga que entiendo los conceptos de pdf, cdf, variable aleatoria, etc.


8
Buena pregunta, aunque mi reacción inmediata, respaldada por mi limitada experiencia en la enseñanza de esto, es que el CLT no es inicialmente intuitivo para la mayoría de las personas. ¡En todo caso, es contra-intuitivo!
parada el

2
@onestop AMEN! mirar la distribución binomial con p = 1/2 a medida que aumenta n muestra que el CLT está al acecho, pero la intuición siempre se me ha escapado.
ronaf

2
Pregunta similar con algunas buenas ideas: stats.stackexchange.com/questions/643/…

1
No es una explicación, pero esta simulación puede ser útil para comprenderla.
David Lane,

Respuestas:


119

Pido disculpas de antemano por la extensión de esta publicación: es con cierta inquietud que la dejo salir en público, porque lleva algo de tiempo y atención leerla y, sin duda, tiene errores tipográficos y fallas expositivas. Pero aquí está para aquellos que estén interesados ​​en el fascinante tema, ofrecido con la esperanza de que lo aliente a identificar una o más de las muchas partes del CLT para una mayor elaboración de sus propias respuestas.


La mayoría de los intentos de "explicar" el CLT son ilustraciones o simplemente reafirmaciones que afirman que es cierto. Una explicación correcta, realmente penetrante, tendría que explicar muchas cosas.

Antes de seguir analizando esto, seamos claros acerca de lo que dice el CLT. Como todos saben, hay versiones que varían en su generalidad. El contexto común es una secuencia de variables aleatorias, que son ciertos tipos de funciones en un espacio de probabilidad común. Para explicaciones intuitivas que se sostienen rigurosamente, encuentro útil pensar en un espacio de probabilidad como una caja con objetos distinguibles. No importa cuáles sean esos objetos, pero los llamaré "tickets". Hacemos una "observación" de una caja mezclando completamente los boletos y sacando uno; ese boleto constituye la observación. Después de grabarlo para su posterior análisis, devolvemos el ticket a la caja para que su contenido permanezca sin cambios. Una "variable aleatoria" es básicamente un número escrito en cada boleto.

En 1733, Abraham de Moivre consideró el caso de una sola caja donde los números en los boletos son solo ceros y unos ("ensayos de Bernoulli"), con algunos de cada número presente. Se imaginó haciendo observaciones físicamente independientes , produciendo una secuencia de valores , todos los cuales son cero o uno. La suma de esos valores, , es aleatoria porque los términos en la suma son. Por lo tanto, si pudiéramos repetir este procedimiento muchas veces, aparecerían varias sumas (números enteros que varían de a ) con varias frecuencias, proporciones del total. (Consulte los histogramas a continuación).x 1 , x 2 , , x n y n = x 1 + x 2 + + x n 0 nnx1,x2,,xnyn=x1+x2++xn0n

Ahora uno esperaría, y es cierto, que para valores muy grandes de , todas las frecuencias serían bastante pequeñas. Si fuéramos a ser tan audaz (o tonto) como para intentar "tener un límite" o "Let ir a ", llegaríamos a la conclusión correcta de que todas las frecuencias se reducen a . Pero si simplemente dibujamos un histograma de las frecuencias, sin prestar atención a cómo se etiquetan sus ejes, vemos que todos los histogramas para grandes comienzan a verse iguales: en cierto sentido, estos histogramas se acercan a un límite aunque las frecuencias todos ellos van a cero.n 0 nnn0n

Histogramas

Estos histogramas representan los resultados de repetir el procedimiento para obtener muchas veces. es el "número de ensayos" en los títulos. nynn

La idea aquí es dibujar el histograma primero y etiquetar sus ejes más tarde . Con grande, el histograma cubre un amplio rango de valores centrados alrededor de (en el eje horizontal) y un intervalo de valores extremadamente pequeño (en el eje vertical), porque las frecuencias individuales crecen bastante pequeñas. Por lo tanto Montaje de esta curva en la región trazando ha requerido tanto un desplazamiento y cambio de escala del histograma. La descripción matemática de esto es que para cada podemos elegir algún valor central (¡no necesariamente único!) Para posicionar el histograma y algún valor de escalan / 2 n m n s n y n z n = ( y n - m n ) / s nnn/2nmnsn(¡no necesariamente único!) para que encaje dentro de los ejes. Esto se puede hacer matemáticamente cambiando a .ynzn=(ynmn)/sn

Recuerde que un histograma representa frecuencias por áreas entre él y el eje horizontal. Por lo tanto, la estabilidad final de estos histogramas para valores grandes de debe establecerse en términos de área. n Por lo tanto, elija cualquier intervalo de valores que desee, digamos de a y, a medida que aumenta, rastree el área de la parte del histograma de que abarca horizontalmente el intervalo . El CLT afirma varios cosas:b > a n z n ( a , b ]ab>anzn(a,b]

  1. No importa lo que y son,b ab si elegimos las secuencias y apropiada (de una manera que no dependa de o en absoluto), esta área se aproxima de hecho un límite en cuanto se hace grande.s n a b nmnsnabn

  2. Las secuencias y se pueden elegir de una manera que depende solo de , el promedio de valores en el cuadro y alguna medida de propagación de esos valores, pero en nada más, de modo que independientemente de lo que esté en el cuadro , el límite es siempre el mismo. (Esta propiedad de universalidad es asombrosa).s n nmnsnn

  3. Específicamente, esa área limitante es el área bajo la curva entre y : esta es la fórmula de ese histograma limitante universal. aby=exp(z2/2)/2πab

    La primera generalización del CLT agrega:

  4. Cuando el cuadro puede contener números además de ceros y unos, se mantienen exactamente las mismas conclusiones (siempre que las proporciones de números extremadamente grandes o pequeños en el cuadro no sean "demasiado grandes", un criterio que tiene una declaración cuantitativa precisa y simple) .

    La próxima generalización, y tal vez la más sorprendente, reemplaza esta única caja de boletos con un conjunto de cajas ordenado indefinidamente largo con boletos. Cada caja puede tener diferentes números en sus boletos en diferentes proporciones. La observación se realiza extrayendo un ticket de la primera casilla, proviene de la segunda casilla, y así sucesivamente.x 2x1x2

  5. Exactamente las mismas conclusiones se mantienen siempre que el contenido de los cuadros "no sea muy diferente" (hay varias caracterizaciones cuantitativas precisas pero diferentes de lo que significa "no muy diferente"; permiten una sorprendente cantidad de latitud).

Estas cinco afirmaciones, como mínimo, deben explicarse. Hay más. Varios aspectos intrigantes de la configuración están implícitos en todas las declaraciones. Por ejemplo,

  • ¿Qué tiene de especial la suma ? ¿Por qué no tenemos teoremas de límite central para otras combinaciones matemáticas de números como su producto o su máximo? (Resulta que sí, pero no son tan generales ni siempre tienen una conclusión tan simple y limpia a menos que puedan reducirse al CLT). Las secuencias de y no son únicas pero son casi únicas. en el sentido de que eventualmente tienen que aproximar la expectativa de la suma de tickets y la desviación estándar de la suma, respectivamente (que, en las dos primeras declaraciones de la CLT, es igual a veces la desviación estándar de la caja). s n n mnsnnn

    La desviación estándar es una medida de la propagación de valores, pero de ninguna manera es la única ni es la más "natural", ya sea históricamente o para muchas aplicaciones. (Muchas personas elegirían algo así como una desviación absoluta media de la mediana , por ejemplo).

  • ¿Por qué aparece la SD de una manera tan esencial?

  • Considere la fórmula para el histograma limitante: ¿ quién hubiera esperado que tomara esa forma? Dice que el logaritmo de la densidad de probabilidad es una función cuadrática . ¿Por qué? ¿Hay alguna explicación intuitiva o clara y convincente para esto?


Confieso que no puedo alcanzar el objetivo final de proporcionar respuestas que sean lo suficientemente simples como para cumplir con los criterios desafiantes de Srikant para la intuición y la simplicidad, pero he bosquejado estos antecedentes con la esperanza de que otros puedan inspirarse para llenar algunos de los muchos vacíos. Creo que una buena demostración tendrá que basarse en un análisis elemental de cómo los valores entre y pueden surgir al formar la suma . Volviendo a la versión de cuadro único del CLT, el caso de una distribución simétrica es más simple de manejar: su mediana es igual a su media, por lo que hay un 50% de posibilidades de que sea ​​menor que el promedio del cuadro y un 50% de posibilidades de queαn=asn+mnβn=bsn+mnx1+x2++xnxixiserá mayor que su media. Además, cuando es suficientemente grande, las desviaciones positivas de la media deberían compensar las desviaciones negativas en la media. (Esto requiere una justificación cuidadosa, no solo agitar las manos). Por lo tanto , deberíamos preocuparnos principalmente por contar el número de desviaciones positivas y negativas y solo tener una preocupación secundaria sobre sus tamaños.n (De todas las cosas que he escrito aquí, esta podría ser la más útil para proporcionar alguna intuición sobre por qué funciona el CLT. De hecho, los supuestos técnicos necesarios para hacer que las generalizaciones del CLT sean verdaderas son esencialmente varias formas de descartar la posibilidad de que raras desviaciones enormes alterarán el equilibrio lo suficiente como para evitar que surja el histograma limitante).

Esto muestra, hasta cierto punto de todos modos, por qué la primera generalización del CLT realmente no revela nada que no estaba en la versión de prueba original de Bernoulli de De Moivre.

En este punto, parece que no hay nada más que hacer un poco de matemática: necesitamos contar el número de formas distintas en que el número de desviaciones positivas de la media puede diferir del número de desviaciones negativas en cualquier valor predeterminado , donde evidentemente es uno de . Pero debido a que los pequeños errores desaparecerán en el límite, no tenemos que contar con precisión; solo necesitamos aproximar los recuentos. Para este fin es suficiente saber quekkn,n+2,,n2,n

The number of ways to obtain k positive and nk negative values out of n

equals nk+1k

times the number of ways to get k1 positive and nk+1 negative values.

(Es un resultado perfectamente elemental, así que no me molestaré en escribir la justificación). Ahora nos aproximamos al por mayor. La frecuencia máxima se produce cuando está lo más cerca posible de (también elemental). Escribamos . Luego, en relación con la frecuencia máxima, el producto estima la frecuencia de desviaciones positivas ( )kn/2m=n/2m+j+1j0

m+1m+1mm+2mj+1m+j+1

=11/(m+1)1+1/(m+1)12/(m+1)1+2/(m+1)1j/(m+1)1+j/(m+1).

135 años antes de que De Moivre escribiera, John Napier inventó los logaritmos para simplificar la multiplicación, así que aprovechemos esto. Usando la aproximación

log(1x1+x)2x,

encontramos que el logaritmo de la frecuencia relativa es aproximadamente

2/(m+1)4/(m+1)2j/(m+1)=j(j+1)m+1j2m.

Debido a que el error acumulativo es proporcional a , esto debería funcionar bien siempre que sea ​​pequeño en relación con . Eso cubre un mayor rango de valores de que se necesita. (Es suficiente que la aproximación funcione para solo en el orden de que asintóticamente es mucho más pequeño que ).j4/m3j4m3jjmm3/4


Obviamente, se debe presentar mucho más análisis de este tipo para justificar las otras afirmaciones en el CLT, pero me estoy quedando sin tiempo, espacio y energía, y probablemente he perdido al 90% de las personas que comenzaron a leer esto de todos modos. Sin embargo, esta simple aproximación sugiere cómo De Moivre podría haber sospechado originalmente que existe una distribución limitante universal, que su logaritmo es una función cuadrática y que el factor de escala apropiado debe ser proporcional a (porque ).sn j2/m=2j2/n=2(j/nj2/m=2j2/n=2(j/n)2 Es difícil imaginar cómo se podría explicar esta importante relación cuantitativa sin invocar algún tipo de información matemática y razonamiento; cualquier cosa menos dejaría la forma precisa de la curva limitante en un completo misterio.


55
+1 Me llevará algún tiempo digerir tu respuesta. Admito que pedir una intuición para el CLT dentro de las limitaciones que impuse puede ser casi imposible.

2
Gracias por tomarse el tiempo para escribir esto, es la exposición más útil del CLT que he visto que también es muy accesible matemáticamente.
jeremy radcliff

1
Sí, bastante denso ... tantas preguntas. ¿Cómo tiene el primer histograma 2 barras (solo hubo 1 prueba); ¿puedo ignorar eso? Y la convención generalmente es evitar espacios horizontales entre las barras de un histograma, ¿verdad? (porque, como usted dice, el área es importante, y el área eventualmente se calculará sobre un dominio continuo (es decir, sin espacios))? ¿Ignoraré las brechas también ...? Incluso tuve lagunas cuando intenté entenderlo :)
The Red Pea

1
@TheRed Gracias por tus preguntas. He editado la primera parte de esta publicación para aclarar un poco estos puntos.
whuber

44
Ah, sí, confundí "número de ensayos = =" observaciones "" con "número de veces (todo este procedimiento) se repite". Entonces, si un ticket solo puede tener el valor a de los dos valores, 0 o 1 , y solo observa un ticket, la suma de los valores de esos tickets solo puede ser una de dos cosas: 0 o 1 . Por lo tanto, su primer histograma tiene dos barras. Además, estas barras son aproximadamente iguales en altura porque esperamos que ocurran 0 y 1 en proporciones iguales. n
The Red Pea

27

La mejor animación que conozco: http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.html

8 capas horizontales de pasadores igualmente espaciados, cada capa escalonada, da como resultado un obstáculo de estilo "pachinko / pinball" para las bolas que caen a través de estos pasadores.  Cada bola cae en la parte inferior y, a medida que las bolas se apilan, su altura se aproxima al contorno de la curva gaussiana.  Esto ilustra que la suma de muchos eventos aleatorios independientes (las capas) dará como resultado una distribución gaussiana de resultados (la altura de la bola apilada)

Las palabras más simples que he leído: http://elonen.iki.fi/articles/centrallimit/index.en.html

Si suma los resultados de estos diez lanzamientos, es probable que lo que obtenga esté más cerca de 30-40 que el máximo, 60 (todos los seis) o, por otro lado, el mínimo, 10 (todos).

La razón de esto es que puede obtener los valores medios de muchas maneras más diferentes que los extremos. Ejemplo: al lanzar dos dados: 1 + 6 = 2 + 5 = 3 + 4 = 7, pero solo 1 + 1 = 2 y solo 6 + 6 = 12.

Es decir: aunque obtenga cualquiera de los seis números igualmente probables al lanzar un dado, los extremos son menos probables que los valores medios en sumas de varios dados.


20

La intuición es algo complicado. Es aún más complicado con la teoría en nuestras manos atadas a la espalda.

El CLT tiene que ver con sumas de pequeñas perturbaciones independientes. "Sumas" en el sentido de la media de la muestra, "pequeño" en el sentido de la variación finita (de la población) y "perturbaciones" en el sentido de más / menos alrededor de un valor central (de la población).

Para mí, el dispositivo que atrae más directamente a la intuición es el quincunx, o 'caja de Galton', vea Wikipedia (¿para 'máquina de frijoles'?) La idea es hacer rodar una pequeña bola por la cara de un tablero adornado con una red. de pasadores igualmente espaciados. En su camino hacia abajo, la pelota se desvía hacia la derecha y hacia la izquierda (... al azar, independientemente) y se acumula en la parte inferior. Con el tiempo, vemos un bonito montículo en forma de campana justo delante de nuestros ojos.

El CLT dice lo mismo. Es una descripción matemática de este fenómeno (más precisamente, el quincunx es evidencia física de la aproximación normal a la distribución binomial). Hablando en términos generales, el CLT dice que siempre y cuando nuestra población no se comporte demasiado (es decir, si las colas del PDF son lo suficientemente delgadas), la media de la muestra (correctamente ajustada) se comporta como esa pequeña bola que rebota en la cara de el quincunx: a veces cae a la izquierda, a veces cae a la derecha, pero la mayoría de las veces cae justo en el medio, en una bonita forma de campana.

La majestuosidad del CLT (para mí) es que la forma de la población subyacente es irrelevante. La forma solo juega un papel en la medida en que delega el tiempo que necesitamos esperar (en el sentido del tamaño de la muestra).


17

Una observación sobre el CLT puede ser la siguiente. Cuando tiene una suma de muchos componentes aleatorios, si uno es "más pequeño de lo habitual", esto se compensa principalmente por algunos de los otros componentes que son "más grandes de lo habitual". En otras palabras, las desviaciones negativas y las desviaciones positivas del componente significan cancelarse mutuamente en la suma. Personalmente, no tengo una intuición clara de por qué exactamente las desviaciones restantes forman una distribución que se ve más y más normal cuanto más términos tenga.

S=X1+X2++Xn

Hay muchas versiones del CLT, algunas más fuertes que otras, algunas con condiciones relajadas, como una dependencia moderada entre los términos y / o distribuciones no idénticas para los términos. En el más simple a probar versiones de la CLT, la prueba se basa generalmente en la función generadora de momentos (o Laplace-Stieltjes transformar o alguna otra adecuada transformada de la densidad) de la suma . Escribir esto como una expansión de Taylor y mantener solo el término más dominante le da la función generadora de momento de la distribución normal. Entonces, para mí personalmente, la normalidad es algo que se desprende de un montón de ecuaciones y no puedo proporcionar más intuición que eso.S

Sin embargo, debe tenerse en cuenta que la distribución de la suma, en realidad nunca se distribuye normalmente, ni el CLT afirma que lo sería. Si es finito, todavía hay cierta distancia a la distribución normal y si tanto la media como la varianza también son infinitas. En el último caso, podría tomar la media de la suma infinita, pero luego obtendrá un número determinista sin ninguna variación, que difícilmente podría etiquetarse como "normalmente distribuido".nn=

Esto puede plantear problemas con aplicaciones prácticas del CLT. Por lo general, si está interesado en la distribución de cerca de su centro, CLT funciona bien. Sin embargo, la convergencia a la normalidad no es uniforme en todas partes y cuanto más te alejes del centro, más términos necesitarás para tener una aproximación razonable.S/n

Con toda la "santidad" del Teorema del límite central en las estadísticas, sus limitaciones a menudo se pasan por alto con demasiada facilidad. A continuación, doy dos diapositivas de mi curso, señalando que CLT falla completamente en las colas, en cualquier caso de uso práctico. Desafortunadamente, mucha gente usa específicamente CLT para estimar las probabilidades de cola, a sabiendas o de otra manera.

ingrese la descripción de la imagen aquí ingrese la descripción de la imagen aquí


55
Este es un gran material y sabios consejos. Desafortunadamente, no puedo votarlo porque las afirmaciones en "Esta normalidad es un artefacto matemático y creo que no es útil buscar ninguna verdad o intuición más profunda detrás de esto" son profundamente preocupantes. Parecen sugerir que (1) no deberíamos confiar en las matemáticas para que nos ayuden teóricamente y (2) no tiene sentido entender las matemáticas en primer lugar. Espero que otras publicaciones en este hilo ya sirvan para refutar la segunda afirmación. El primero es tan inconsistente que apenas requiere más análisis.
whuber

2
@whuber. Tienes razón, quizás estoy fuera de mi alcance. Lo editaré
StijnDeVuyst

3
Gracias por reconsiderar la parte problemática y un gran +1 por el resto.
whuber

7

Esta respuesta espera dar un significado intuitivo del teorema del límite central, utilizando técnicas simples de cálculo (expansión de Taylor de orden 3). Aquí está el bosquejo:

  1. Lo que dice el CLT
  2. Una prueba intuitiva del CLT usando cálculo simple
  3. ¿Por qué la distribución normal?

Mencionaremos la distribución normal al final; porque el hecho de que eventualmente surja la distribución normal no tiene mucha intuición.

1. ¿Qué dice el teorema del límite central? Varias versiones del CLT

Hay varias versiones euivalentes del CLT. La declaración del libro de texto del CLT dice que para cualquier real y cualquier secuencia de variables aleatorias independientes con media cero y varianza 1, Para comprender lo que es universal e intuitivo sobre el CLT, olvidemos el límite por un momento. La declaración anterior dice que si y son dos secuencias de variables aleatorias independientes, cada una con media cero y varianza 1, entonces xX1,,Xn

P(X1++Xnnx)n+xet2/22πdt.
X1.,,XnZ1,,Zn
E[f(X1++Xnn)]E[f(Z1++Znn)]n+0
para cada función de indicador de la forma, para algunas reales fijas , La pantalla anterior representa el hecho de que el límite es el mismo sin importar las distribuciones particulares de y , siempre que las variables aleatorias sean independientes con media cero, varianza uno.fx
f(t)={1 if t<x0 if tx.
X1,,XnZ1,,Zn

Algunas otras versiones del CLT mencionan la clase de funciones de Lipschtiz que están delimitadas por 1; algunas otras versiones de CLT mencionan la clase de funciones suaves con derivada acotada del orden . Considere dos secuencias y como arriba, y para alguna función , el resultado de convergencia (CONV)kX1,,XnZ1,,Znf

(CONV)E[f(X1++Xnn)]E[f(Z1++Znn)]n+0

Es posible establecer la equivalencia ("si y solo si") entre las siguientes afirmaciones:

  1. (CONV) anterior se cumple para todas las funciones de indicador de la forma para y para para alguna real fija .ff(t)=1t<xf(t)=0txx
  2. (CONV) se mantiene para cada función de Lipschitz acotada .f:RR
  3. (CONV) se cumple para todas las funciones suaves (es decir, ) con soporte compacto.C
  4. (CONV) se mantiene para cada función tres veces continuamente diferenciable con .fsupxR|f(x)|1

Cada uno de los 4 puntos anteriores dice que la convergencia es válida para una gran clase de funciones. Mediante un argumento de aproximación técnica, se puede demostrar que los cuatro puntos anteriores son equivalentes, remitimos al lector al Capítulo 7, página 77 del libro de David Pollard , Guía del usuario para medir las probabilidades teóricas de las cuales esta respuesta está altamente inspirada.

Nuestra suposición para el resto de esta respuesta ...

que para alguna constante , que corresponde al punto 4 anterior. También asumiremos que las variables aleatorias tienen un tercer momento finito limitado: y son finitas.supxR|f(x)|CC>0E[|Xi|3]E[|Zi|3]

2. El valor de es universal: no depende de la distribución deE[f(X1++Xnn)]X1,...,Xn

Demostremos que esta cantidad es universal (hasta un pequeño término de error), en el sentido de que no depende de qué colección de variables aleatorias independientes se proporcionó. Tome y dos secuencias de variables aleatorias independientes, cada una con media 0 y varianza 1, y tercer momento finito.X1,,XnZ1,,Zn

La idea es reemplazar iterativamente por en una de las cantidades y controlar la diferencia por cálculo básico (la idea, creo, se debe a Lindeberg). Por una expansión de Taylor, si , y entonces donde yXiZiW=Z1++Zn1h(x)=f(x/n)

h(Z1++Zn1+Xn)=h(W)+Xnh(W)+Xn2h(W)2+Xn3/h(Mn)6h(Z1++Zn1+Zn)=h(W)+Znh(W)+Zn2h(W)2+Zn3h(Mn)6
MnMnson puntos medios dados por el teorema del valor medio. Tomando expectativa en ambas líneas, el término de orden cero es el mismo, los términos de primer orden son iguales en expectativa porque por independencia de y , y de manera similar para la segunda línea. Nuevamente, por independencia, los términos de segundo orden son los mismos que se esperan. Los únicos términos restantes son el de tercer orden, y en la expectativa la diferencia entre las dos líneas es como máximo Aquí es un límite superior en la tercera derivada de . El denominador aparece porqueXnWE[Xnh(W)]=E[Xn]E[h(W)]=0

(C/6)E[|Xn|3+|Zn|3](n)3.
Cf(n)3h(t)=f(t/n)/(n)3 . Por independencia, la contribución de en la suma no tiene sentido porque podría reemplazarse por sin incurrir en un error mayor que la pantalla anterior.XnZn

Ahora reiteramos reemplazar por . Si entonces Por independencia de y , y por independencia de yXn1Zn1W~=Z1+Z2++Zn2+Xn

h(Z1++Zn2+Xn1+Xn)=h(W~)+Xn1h(W~)+Xn12h(W~)2+Xn13/h(M~n)6h(Z1++Zn2+Zn1+Xn)=h(W~)+Zn1h(W~)+Zn12h(W~)2+Zn13/h(M~n)6.
Zn1W~Xn1W~, de nuevo, los términos cero, primer y segundo orden son iguales en expectativa para ambas líneas. La diferencia de expectativa entre las dos líneas es nuevamente como máximo Seguimos iterando hasta que reemplazamos todos los 's por ' s. Al agregar los errores cometidos en cada uno de los pasos, obtenemos como

(C/6)E[|Xn1|3+|Zn1|3](n)3.
ZiXin
|E[f(X1++Xnn)]E[f(Z1++Znn)]|n(C/6)maxi=1,,nE[|Xi|3+|Zi|3](n)3.
naumenta, el lado derecho se vuelve arbitrariamente pequeño si los terceros momentos o las variables aleatorias son finitas (supongamos que es el caso). Esto significa que las expectativas de la izquierda se vuelven arbitrariamente cercanas entre sí, sin importar si la distribución de está lejos de la de . Por independencia, la contribución de cada en la suma no tiene sentido porque podría ser reemplazada por sin incurrir en un error mayor que . Y reemplazar todas las 's por las ' s no cambia la cantidad en más de .X1,,XnZ1,,ZnXiZiO(1/(n)3)XiZiO(1/n)

La expectativa es, por lo tanto, universal, no depende de la distribución de . Por otro lado, la independencia y fue de suma importancia para los límites anteriores.E[f(X1++Xnn)]X1,,XnE[Xi]=E[Zi]=0,E[Zi2]=E[Xi2]=1

3. ¿Por qué la distribución normal?

Hemos visto que la expectativa será la misma sin importar cuál sea la distribución de , hasta un pequeño error de orden .E[f(X1++Xnn)]XiO(1/n)

Pero para las aplicaciones, sería útil calcular tal cantidad. También sería útil obtener una expresión más simple para esta cantidad .E[f(X1++Xnn)]

Dado que esta cantidad es la misma para cualquier colección , simplemente podemos elegir una colección específica de manera que la distribución sea ​​fácil de calcular o fácil de recordar.X1,,Xn(X1++Xn)/n

Para la distribución normal , sucede que esta cantidad se vuelve realmente simple. De hecho, si son iid entonces también tiene la distribución y no depende de . Por lo tanto, si , entonces y por el argumento anterior, para cualquier colección de variables aleatorias independientes con , luegoN(0,1)Z1,,ZnN(0,1)Z1++ZnnN(0,1)nZN(0,1)

E[f(Z1++Znn)]=E[f(Z)],
X1,,XnE[Xi]=0,E[Xi2]=1

|E[f(X1++Xnn)]E[f(Z)|supxR|f(x)|maxi=1,,nE[|Xi|3+|Z|3]6n.

Parece estar afirmando una ley de grandes números en lugar de la CLT.
whuber

1
No estoy seguro de por qué dirías esto, @whuber. Lo anterior proporciona una prueba intuitiva de que converge a donde para una gran clase de funciones . Este es el CLT. E[f((X1+...+Xn)/n)]E[f(Z)]ZN(0,1)f
jlewk

2
Veo a que te refieres. Lo que me detiene es que su afirmación se refiere solo a las expectativas y no a las distribuciones, mientras que el CLT saca conclusiones sobre una distribución limitante. La equivalencia entre los dos podría no ser evidente de inmediato para muchos. ¿Puedo sugerir, entonces, que proporcione una conexión explícita entre su declaración y las declaraciones habituales del CLT en términos de distribuciones limitantes? (+1 por cierto: gracias por elaborar este argumento.)
whuber

1

Dejé de tratar de encontrar una versión intuitiva y se me ocurrieron algunas simulaciones. Tengo uno que presenta una simulación de un Quincunx y otros que hacen cosas como mostrar cómo incluso una distribución de tiempo de reacción cruda sesgada se volverá normal si recolecta suficientes RT por sujeto. Creo que ayudan pero son nuevos en mi clase este año y aún no he calificado la primera prueba.

Una cosa que me pareció buena fue poder mostrar la ley de grandes números también. Podría mostrar cuán variables son las cosas con tamaños de muestra pequeños y luego mostrar cómo se estabilizan con las grandes. También hago muchas otras demostraciones de gran número. Puedo mostrar la interacción en el Quincunx entre la cantidad de procesos aleatorios y la cantidad de muestras.

(Resulta que no haber podido usar una tiza o pizarra en mi clase puede haber sido una bendición)


Hola John: ¡me alegro de verte de nuevo con esta publicación después de casi nueve años! Sería interesante leer sobre las experiencias que ha tenido mientras tanto con el uso de simulaciones para enseñar la idea del CLT y los LLN.
Whuber

Dejé de enseñar esa clase un año más tarde, pero el instructor posterior retomó la idea de la simulación. De hecho, lo lleva mucho más lejos y ha desarrollado una secuencia de aplicaciones brillantes y hace que los estudiantes jueguen con simulaciones para un montón de cosas en la clase de 250 personas. Por lo que puedo ver al enseñar a la clase alta, los estudiantes parecen sacar mucho provecho de ella. La diferencia entre sus alumnos y los de las clases equivalentes es notable. (pero, por supuesto, hay muchas variables no controladas allí)
Juan

Gracias John. Es tan inusual obtener incluso comentarios anecdóticos sobre el desempeño duradero de los estudiantes después de que una clase ha terminado que encuentro incluso esta información limitada de interés.
whuber

-8

Cuando agrega muchos histogramas de distribuciones aleatorias juntos, mantiene la forma de distribución normal porque todos los histogramas individuales ya tienen esa forma u obtiene esa forma porque las fluctuaciones en los histogramas individuales tienden a cancelarse entre sí si agrega un gran Número de histogramas. Un histograma de una distribución aleatoria de una variable ya está aproximadamente distribuido de una manera que la gente ha comenzado a llamar la distribución normal porque es muy común y ese es un microcosmos del teorema del límite central.

Esta no es toda la historia, pero creo que es tan intuitiva como parece.


2
Su descripción de una "distribución normal" suena como una versión discreta del doble exponencial, que ni siquiera es remotamente como una distribución normal gaussiana (excepto en la medida en que ambas son unimodales y simétricas). ¡El histograma de lanzamientos de monedas no tiene barras que disminuyan en un factor de con cada paso! Eso sugiere que puede haber algunas dificultades al acecho en esta explicación que han sido empapeladas por una apelación a la "intuición". 2
whuber

55
Esta respuesta es en su mayoría sin sentido. Ningún número de lanzamientos de una moneda justa dará como resultado una distribución del número de caras que tiene probabilidades ; de hecho, ¡eso ni siquiera es una función de probabilidad de masa! El número de cabezas seguidas tampoco tiene nada que ver con la pregunta. 18,14,12,14,18
Dilip Sarwate
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.