¿Por qué el CLT no funciona para


16

Entonces sabemos que una suma de n poissons con parámetro λ es en sí misma un poisson con nλ . Hipotéticamente, uno podría tomar xpoisson(λ=1) y decir que en realidad es 1nxipoisson(λ=1) donde cada xi es: xipoisson(λ=1/n) , y tome una gran n para que CLT funcione.

Esto (obviamente) no funciona. Supongo que esto tiene algo que ver con la forma en que CLT funciona "más rápido" para variables aleatorias que están "más cerca" de lo normal, y que cuanto más pequeña es lambda, más obtenemos una variable aleatoria que es mayormente 0 y rara vez varía algo más.

Sin embargo, lo que expliqué es mi intuición. ¿Hay alguna forma más formal de explicar por qué este es el caso?

¡Gracias!


66
Para empezar, CLT necesita que dividas i=1nxi entren (en cuyo caso, convergerás en gaussiano).
Alex R.

1
@AlexR. No se divide por n , entonces la desviación estándar será un factor de 1/n
Aksakal

44
No veo qué tiene que ver esta pregunta con el CLT "no funciona". El CLT se refiere a sumas estandarizadas de variables aleatorias con una distribución dada , mientras que usted toma una sola variable aleatoria y contempla infinitas formas de dividirla .
whuber

2
@AlexR La configuración parece estar completamente mal. Aquí hay dos procesos diferentes: suma y división, y no hay razón para suponer que deberían tener características asintóticas similares.
whuber

3
@ Aksakal: en realidad, AlexR es correcto. Si divide por n , obtiene una distribución degenerada como n . Si divides por n , te acercas a una distribución normal con sd = 1 comon.
Cliff AB

Respuestas:


13

Estoy de acuerdo con @whuber en que la raíz de la confusión parece estar reemplazando la suma asintótica en CLT con algún tipo de división en su argumento. En CLT obtenemos la fijo distribución a continuación, dibuje n números x i de ella y calcular la suma ˉ x n = 1f(x,λ)nxi . Si seguimos aumentandon,entonces sucede algo interesante: x¯n=1ni=1nxin dondeμ,σ2son medias y la varianza de la distribuciónf(x

n(x¯nμ)N(0,σ2)
μ,σ2 .f(x)

Lo que sugiere hacer con Poisson es algo al revés: en lugar de sumar las variables de una distribución fija , desea dividir la distribución fija en partes siempre cambiantes . En otras palabras, toma una variable de una distribución fija f ( x , λ ) y luego la divide en x i para que n i = 1 x ixxf(x,λ)xi

i=1nxix

¿Qué dice CLT sobre este proceso? Nada. Tenga en cuenta que, en CLT, siempre hemos cambiado , y sudistribucióncambiantefn(x)que converge a unadistribuciónfijaN(0,σ2)n(x¯nμ)fn(x)N(0,σ2)

¡En su configuración, ni la suma ni su distribución f ( x , λ ) están cambiando! Están arreglados No están cambiando, no están convergiendo a nada. Entonces, CLT no tiene nada que decir sobre ellos.xf(x,λ)

Además, CLT no dice nada sobre el número de elementos en la suma. Puede tener una suma de 1000 variables de Poisson (0.001) y CLT no dirá nada sobre la suma. Todo lo que dice es que si sigues aumentando N, en algún momento esta suma comenzará a verse como una distribución normal . De hecho, si N = 1,000,000 obtendrá la aproximación cercana de la distribución normal.1Ni=1Nxi,xiPoisson(0.001)

Su intuición es correcta solo sobre el número de elementos en la suma, es decir, más que la distribución inicial es diferente de lo normal, entonces más elementos que necesita sumar para llegar a la normalidad. La manera más formal (pero aún informal) sería examinado la función característica de Poisson: Si lambda > > 1 , que se obtiene con la expansión de Taylor (WRT t ) del exponente anidado: exp ( i λ t - λ / 2 t 2

exp(λ(exp(it)1))
λ>>1t
exp(iλtλ/2t2)
Esta es la función característica de la distribución normal N(λ,λ2)

Sin embargo, su intuición no se aplica correctamente: su desplazamiento de la suma en CLT con algún tipo de división arruina las cosas y hace que CLT sea inaplicable.


+1 El material preliminar está bien redactado, es muy claro y llega al corazón del problema.
whuber

7

El problema con su ejemplo es que está permitiendo que los parámetros cambien como n cambia. El CLT le dice que para una distribución fija con una media finita y sd, como ,n

,xμndN(0,σ)

donde y σ son de la media y sd de la distribución de x .μσx

Por supuesto, para diferentes distribuciones (es decir, más sesgadas, por ejemplo), se requieren más grandes antes de que la aproximación derivada de este teorema sea razonable. En su ejemplo, para λ m = 1 / m , un n > > m se requiere antes de la aproximación normal es razonable.nλm=1/mn>>m

EDITAR

Se discute cómo el CLT no se aplica a las sumas, sino a las sumas estandarizadas (es decir, noxi). En teoría, esto es cierto: la suma no estandarizada tendrá una distribución indefinida en la mayoría de los casos.xi/nxi

Sin embargo, en la práctica, ¡ciertamente puede aplicar la aproximación justificada por el CLT a las sumas! Si puede aproximarse por un CDF normal para n grande , entonces ciertamente F x también puede hacerlo, ya que multiplicar por un escalar conserva la normalidad. Y puede ver esto de inmediato en este problema: recuerde que si X iP o i s ( λ ) , entonces Y = n i = 1 X iP o i s ( n λFx¯nFxXiPois(λ)Y=i=1nXiPois(nλ) . Y todos aprendimos en nuestro curso de probabilidad de división superior que para grandes, el CDF de un P o i s ( λ ) puede aproximarse bastante bien por una normal con μ = λ , σ 2 = λ . Entonces, para cualquier λ fijo, podemos aproximarbastante bienel CDF de Y P o i s ( n λ ) con Φ ( y - n λλPois(λ)μ=λσ2=λ λYPois(nλ)Φ(ynλnλ)nλ>0λ=0

Si bien el CLT no se aplica fácilmente a las sumas, la aproximación basada en el CLT ciertamente sí. Creo que esto es a lo que se refería el OP cuando discutía la aplicación del CLT a la suma.


5

La pregunta es, en mi opinión, más interesante si se piensa de manera más general, dejando que la distribución del padre Poisson dependa de norte, digamos con parámetro λnorte y λnorte=1 as a special case. I think it's perfectly reasonable to ask why, and how we can understand that, a central limit theorem does not hold for the sum Sn=i=1nXi,n. After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on n. It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.

The key issue as I see it is that your construction implies the distribution of Xi,n depends on n in such a way that the parameter of the distribution of Sn does not grow in n. If you would instead have taken, for example, SnPoi(n) and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a Poi(λn) distribution that allows for application of a CLT.

The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out, SnPoi(1) for all n, so Sn cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.

A version of the theorem may be found in these notes by Hunter. Let sn2=Var(Sn). The Lindeberg-Feller condition is that, ϵ>0:

1sn2i=1nE[Xi,n1/n]2I(|Xi,n1/n|>ϵsn)0,n

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in n that sn=1 for every n. For fixed n, we also have that the Xi,n are iid. Thus, the condition is equivalent to

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)0.

But, for small ϵ and large n,

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1e1/n]=ϵ2n[1(11/n+o(1/n))]=ϵ2+o(1),

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of Sn for every n, but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.


+1 This nicely illuminates a comment by @AlexR to the question, too.
whuber
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.