El papel de la varianza en el teorema del límite central


10

Leí en alguna parte que la razón por la que cuadramos las diferencias en lugar de tomar valores absolutos al calcular la varianza es que la varianza definida de la manera habitual, con cuadrados en el nominador, juega un papel único en el Teorema del límite central.

Bueno, entonces, ¿cuál es exactamente el papel de la variación en CLT? No pude encontrar más sobre esto, o entenderlo correctamente.

También podríamos preguntar qué nos hace pensar que la varianza es una medida de hasta qué punto se extiende un conjunto de números. Podría definir otras cantidades, similares a la varianza, y convencerlo de que miden la dispersión de los números. Para que esto suceda, tendría que indicar qué se entiende exactamente por dispersión de números, qué comportamiento espera de la medida de propagación, etc. No existe una definición formal de propagación, por lo que podemos tratar la varianza como la definición. Sin embargo, por alguna razón, la varianza se considera "la mejor" medida de propagación.


Intenté específicamente responder esta pregunta en mi respuesta en stats.stackexchange.com/a/3904/919 .
whuber

1
Ahora recuerdo haber visto tu respuesta antes, pero el problema es que realmente no puedo encontrar la palabra 'varianza' en tu respuesta. ¿Qué parte explica exactamente el problema? Tal vez debería leerlo de nuevo.
user4205580

3
Busque "SD", que es equivalente a la varianza, y al término "factor de escala". El punto (bastante profundo) aquí es que la varianza en sí misma no es una opción única: para cualquier distribución dada, ¡puede elegir (casi) cualquier medida de propagación que desee! Suponiendo que esa medida converge con la propagación de la distribución subyacente, lo que realmente importa es que cuando se estandariza la suma (o media) denorte En muestras de esa distribución, debe reescalar su propagación por un factor que asintóticamente es norte. Al hacerlo, logrará una distribución normal limitante.
whuber

Respuestas:


8

La declaración clásica del Teorema del límite central (CLT) considera una secuencia de variables aleatorias independientes, distribuidas idénticamenteX1,X2,...,Xnorte,... con distribución común F. Esta secuencia modela la situación que enfrentamos al diseñar un programa de muestreo o experimento: si podemos obtenernorteobservaciones independientes del mismo fenómeno subyacente, luego la colección finitaX1,X2,...,Xnortemodela los datos anticipados. Permitir que la secuencia sea infinita es una forma conveniente de contemplar tamaños de muestra arbitrariamente grandes.

Varias leyes de grandes números afirman que la media

metro(X1,X2,...,Xnorte)=1norte(X1+X2++Xnorte)

se acercará de cerca a la expectativa de F, μ(F), con alta probabilidad, siempre FEn realidad tiene una expectativa. (No todas las distribuciones lo hacen). Esto implica la desviaciónmetro(X1,X2,...,Xnorte)-μ(F) (que, en función de estos norte variables aleatorias, también es una variable aleatoria) tenderá a reducirse a medida que norteaumenta El CLT se suma a esto de una manera mucho más específica: establece (bajo algunas condiciones, que analizaré a continuación) que si volvemos a escalar esta desviación pornorte, tendrá una función de distribución Fnorteque se acerca a alguna función de distribución Normal de media cero comonortecrece grande (Mi respuesta en https://stats.stackexchange.com/a/3904 intenta explicar por qué esto es así y por qué el factor denorte es el correcto para usar.)

Esta no es una declaración estándar del CLT. Vamos a conectarlo con el habitual. Esa distribución normal de media cero limitante estará completamente determinada por un segundo parámetro, que generalmente se elige como una medida de su propagación (¡naturalmente!), Como su varianza o desviación estándar. Dejarσ2sea ​​su varianza Seguramente debe tener alguna relación con una propiedad similar deF. Para descubrir de qué se trata, dejemosF tener una varianza τ2--que podría ser infinito, por cierto. Independientemente, porque elXyo son independientes, calculamos fácilmente la varianza de las medias:

Var(metro(X1,X2,...,Xnorte))=Var(1norte(X1+X2++Xnorte))=(1norte)2(Var(X1)+Var(X2)++Var(Xnorte))=(1norte)2(τ2+τ2++τ2)=τ2norte.

En consecuencia, la varianza de los residuos estandarizados es igual a τ2/ /norte×(norte)2=τ2: es constante La varianza de la distribución normal limitante, entonces, debe serτ2sí mismo. (Esto muestra inmediatamente que el teorema solo puede sostenerse cuandoτ2 es finito: esa es la suposición adicional que pasé por alto anteriormente).

(Si hubiéramos elegido cualquier otra medida de propagación de F aún podríamos tener éxito en conectarlo a σ2, pero no habríamos encontrado que la medida correspondiente de propagación de la desviación media estandarizada es constante para todos norte, que es una hermosa, aunque no esencial, simplificación).

Si hubiéramos deseado, podríamos haber estandarizado las desviaciones medias todo el tiempo dividiéndolas por τ así como multiplicarlos por norte. Eso habría asegurado que la distribución limitante es Normal estándar , con varianza unitaria. Ya sea que elija estandarizar porτ de esta manera o no es realmente una cuestión de gustos: es el mismo teorema y la misma conclusión al final. Lo que importaba era la multiplicación pornorte.

Tenga en cuenta que podría multiplicar las desviaciones por algún factor que no sea norte. Podrías usarnorte+Exp(-norte)o norte1/ /2+1/ /norte, o cualquier otra cosa que se comporta asintóticamente como norte. Cualquier otra forma asintótica, en el límite, reduciríaσ2 a 0 0 o explotarlo . Esta observación refina nuestra apreciación del CLT al mostrar hasta qué punto es flexible con respecto a cómo se realiza la estandarización. Es posible que deseemos indicar el CLT, entonces, de la siguiente manera.

Proporcionó la desviación entre la media de una secuencia de variables IID (con distribución común F) y la expectativa subyacente se escala asintóticamente por norte, esta desviación escalada tendrá una distribución limitante normal de media cero cuya varianza es la de F.

Aunque las variaciones están involucradas en la declaración, aparecen solo porque son necesarias para caracterizar la distribución normal limitante y relacionar su propagación con la de F. Este es solo un aspecto incidental. No tiene nada que ver con que la varianza sea "la mejor" en ningún sentido. El quid de la cuestión es el cambio de escala asintótico pornorte.


5

La variación NO es esencial para los teoremas del límite central. Es esencial para el iid de principiante de la variedad de jardín, el Teorema del límite central, el que la mayoría de la gente conoce y ama, usa y abusa.

No existe "el" Teorema del límite central, hay muchos teoremas del límite central:

El teorema del límite central de la variedad de jardín para principiantes. Incluso aquí, la elección juiciosa de la norma constante (por lo tanto, una variante avanzada del CLT para principiantes) puede permitir que se demuestren los teoremas del límite central para ciertas variables aleatorias que tienen una varianza infinita (ver Feller Vol. II http://www.amazon.com/Introduction -Probabilidad-Teoría-Aplicaciones-Edición / dp / 0471257095 p. 260).

La matriz triangular Teorema del límite central de Lindeberg-Feller. http://sites.stat.psu.edu/~dhunter/asymp/lectures/p93to100.pdf
https://en.wikipedia.org/wiki/Central_limit_theorem .

El mundo salvaje de cualquier cosa va todo a la vista dependiendo de los teoremas del límite central para los cuales la varianza ni siquiera necesita existir. Una vez probé un teorema del límite central para el que no solo no existía la varianza, sino que tampoco existía la media, y de hecho ni siquiera un momento de 1 - épsilon para épsilon positivo arbitrariamente pequeño. Esa fue una prueba difícil, porque "apenas" convergió, y lo hizo muy lentamente. Asintóticamente convergió a una Normal, en realidad, se necesitaría un tamaño de muestra de millones de términos para que la Normal sea una buena aproximación.


¿Se puede acceder al CLT en algún lugar de la web? Suena muy interesante y me gustaría leerlo.
Alecos Papadopoulos

2
Fue una tarea en un curso de probabilidad teórica hace casi 35 años, perdida en los tiempos de arena. Bueno, podría estar en una de mis cajas en algún lugar, pero no es probable que lo desenterre pronto. Apenas fui lo suficientemente inteligente como para demostrarlo (con muchas horas de trabajo duro), no lo suficientemente inteligente como para haberlo formulado. Hay infinitos teoremas de límite central diferentes, la norma es la clave.
Mark L. Stone

1

Cuál es la mejor medida de propagación depende de la situación. La varianza es una medida de propagación que es un parámetro de la distribución normal. Entonces, si modela sus datos con una distribución normal, la media (aritmética) y la varianza empírica son los mejores estimadores (son "suficientes") de los parámetros de esa distribución normal. Eso también da el enlace al teorema del límite central, ya que se trata de un límite normal, es decir, el límite es una distribución normal. Entonces, si tiene suficientes observaciones de que el teorema del límite central es relevante, nuevamente puede usar la distribución normal, y la varianza empírica es la descripción natural de la variabilidad, porque está vinculada a la distribución normal.

Sin este vínculo con la distribución normal, no tiene sentido que la varianza sea la mejor o incluso un descriptor natural de variabilidad.


No está claro por qué la teoría de los "mejores" estimadores (en cualquier sentido de "mejor") debería tener alguna conexión con el teorema del límite central. Si se usara una función de pérdida no cuadrática, por ejemplo, entonces la media y la varianza podrían no ser los "mejores" estimadores de los parámetros de una distribución normal; en cambio, la mediana y el IQR podrían ser mejores.
whuber

1

Abordar solo la segunda pregunta:

Supongo que la variación ha sido la medida de dispersión elegida por la mayoría de los estadísticos principalmente por razones históricas y luego debido a la inercia de la mayoría de los profesionales no estadísticos.

Aunque no puedo citar de memoria una referencia específica con alguna definición rigurosa de propagación, puedo ofrecer heurística para su caracterización matemática: momentos centrales (es decir, mi[(X-μ)k]) son muy útiles para sopesar las desviaciones del centro de distribución y sus probabilidades / frecuencias, pero solo si k es entero y par.

¿Por qué? Debido a que las desviaciones por debajo del centro (negativas) se resumirán con desviaciones por encima del centro (positivas), en lugar de cancelarlas parcialmente, como lo hace el promedio, por ejemplo. Como puedes pensar, momentos centrales absolutos (es decir,mi(El |X-μEl |k)) también puede hacer ese trabajo y, más aún, para cualquier k>0 0 (ok, ambos momentos son iguales si k incluso).

Por lo tanto, una gran cantidad de pequeñas desviaciones (tanto positivas como negativas) con pocas desviaciones grandes son características de poca dispersión, lo que producirá un momento central incluso relativamente pequeño. Muchas desviaciones grandes producirán un momento central incluso relativamente grande.

¿Recuerdas cuando dije sobre las razones históricas anteriores? Antes de que el poder computacional se volviera barato y disponible, uno necesitaba confiar solo en habilidades matemáticas y analíticas para lidiar con el desarrollo de teorías estadísticas.

Los problemas que involucran momentos centrales eran más fáciles de abordar que los que involucran momentos centrales absolutos. Por ejemplo, los problemas de optimización que involucran momentos centrales (p. Ej., Mínimos cuadrados) requieren solo cálculo, mientras que la optimización involucra momentos centrales absolutos conk impar (para k=1 obtienes un problema simplex), que no se puede resolver solo con cálculo.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.