Distribución asintótica de la varianza muestral de muestra no normal

Este es un tratamiento más general del problema planteado por esta pregunta . Después de deducir la distribución asintótica de la varianza de la muestra, podemos aplicar el método Delta para llegar a la distribución correspondiente para la desviación estándar.

Deje una muestra de tamaño de iid variables aleatorias no normales , con media y varianza . Establezca la media muestral y la varianza muestral como $n$ $\{X_i\},\;\; i=1,...,n$ $\mu$ $\sigma^2$

\bar{x} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}, s^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \bar{x})^{2}

$\bar x = \frac 1n \sum_{i=1}^nX_i,\;\;\; s^2 = \frac 1{n-1} \sum_{i=1}^n(X_i-\bar x)^2$

Sabemos que

E (s^{2}) = σ^{2}, Var (s^{2}) = \frac{1}{n} (μ_{4} - \frac{n - 3}{n - 1} σ^{4})

$E(s^2) = \sigma^2, \;\;\; \operatorname {Var}(s^2) = \frac{1}{n} \left(\mu_4 - \frac{n-3}{n-1}\sigma^4\right)$

donde $\mu_4 = E(X_i -\mu)^4$ , y restringimos nuestra atención a las distribuciones para las cuales los momentos deben existir y ser finitos, existen y son finitos.

¿Sostiene eso?

\sqrt{n} (s^{2} - σ^{2}) \to_{d} N (0, μ_{4} - σ^{4}) ?

$\sqrt n(s^2 - \sigma^2) \rightarrow_d N\left(0,\mu_4 - \sigma^4\right)\;\; ?$

— Alecos Papadopoulos
fuente

Je Acabo de publicar en el otro hilo, sin darme cuenta de que has publicado esto. Hay varias cosas que se pueden encontrar en el CLT aplicado a la varianza (como p3-4 aquí, por ejemplo). Buena respuesta por cierto.

— Glen_b -Reinstalar Monica

Gracias. Sí, he encontrado esto. Pero se pierden el caso que señaló @whuber. Incluso proporcionan un ejemplo de Bernoulli con

general

p

$p$ ! (base de la p. 4). Estoy extendiendo mi respuesta para cubrir el caso

p = 1 / 2

$p=1/2$ 1/2 también.

— Alecos Papadopoulos

Sí, vi que consideraron el Bernoulli pero no consideraron ese caso especial. Creo que la mención de la distinción para el Bernoulli escalado (caso dicotómico de igual problema) es una de las razones (entre otras) por la cual es valioso que se debata aquí en respuesta (en lugar de solo en un comentario). se puede buscar

— Glen_b -Reinstate Monica

Respuestas:

Para las dependencias que surgen cuando consideramos la varianza de la muestra, escribimos

(n - 1) s^{2} = \sum_{i = 1}^{n} ((X_{i} - μ) - (\bar{x} - μ))^{2}

$(n-1)s^2 = \sum_{i=1}^n\Big((X_i-\mu) -(\bar x-\mu)\Big)^2$

= \sum_{i = 1}^{n} (X_{i} - μ)^{2} - 2 \sum_{i = 1}^{n} ((X_{i} - μ) (\bar{x} - μ)) + \sum_{i = 1}^{n} (\bar{x} - μ)^{2}

$=\sum_{i=1}^n\Big(X_i-\mu\Big)^2-2\sum_{i=1}^n\Big((X_i-\mu)(\bar x-\mu)\Big)+\sum_{i=1}^n\Big(\bar x-\mu\Big)^2$

y después de una pequeña manipulación,

= \sum_{i = 1}^{n} (X_{i} - μ)^{2} - n (\bar{x} - μ)^{2}

$=\sum_{i=1}^n\Big(X_i-\mu\Big)^2 - n\Big(\bar x-\mu\Big)^2$

Por lo tanto

\sqrt{n} (s^{2} - σ^{2}) = \frac{\sqrt{n}}{n - 1} \sum_{i = 1}^{n} (X_{i} - μ)^{2} - \sqrt{n} σ^{2} - \frac{\sqrt{n}}{n - 1} n (\bar{x} - μ)^{2}

$\sqrt n(s^2 - \sigma^2) = \frac {\sqrt n}{n-1}\sum_{i=1}^n\Big(X_i-\mu\Big)^2 -\sqrt n \sigma^2- \frac {\sqrt n}{n-1}n\Big(\bar x-\mu\Big)^2$

Manipulando,

\sqrt{n} (s^{2} - σ^{2}) = \frac{\sqrt{n}}{n - 1} \sum_{i = 1}^{n} (X_{i} - μ)^{2} - \sqrt{n} \frac{n - 1}{n - 1} σ^{2} - \frac{n}{n - 1} \sqrt{n} (\bar{x} - μ)^{2}

$\sqrt n(s^2 - \sigma^2) = \frac {\sqrt n}{n-1}\sum_{i=1}^n\Big(X_i-\mu\Big)^2 -\sqrt n \frac {n-1}{n-1}\sigma^2- \frac {n}{n-1}\sqrt n\Big(\bar x-\mu\Big)^2$

= \frac{n \sqrt{n}}{n - 1} \frac{1}{n} \sum_{i = 1}^{n} (X_{i} - μ)^{2} - \sqrt{n} \frac{n - 1}{n - 1} σ^{2} - \frac{n}{n - 1} \sqrt{n} (\bar{x} - μ)^{2}

$=\frac {n\sqrt n}{n-1}\frac 1n\sum_{i=1}^n\Big(X_i-\mu\Big)^2 -\sqrt n \frac {n-1}{n-1}\sigma^2- \frac {n}{n-1}\sqrt n\Big(\bar x-\mu\Big)^2$

= \frac{n}{n - 1} [\sqrt{n} (\frac{1}{n} \sum_{i = 1}^{n} (X_{i} - μ)^{2} - σ^{2})] + \frac{\sqrt{n}}{n - 1} σ^{2} - \frac{n}{n - 1} \sqrt{n} (\bar{x} - μ)^{2}

$=\frac {n}{n-1}\left[\sqrt n\left(\frac 1n\sum_{i=1}^n\Big(X_i-\mu\Big)^2 -\sigma^2\right)\right] + \frac {\sqrt n}{n-1}\sigma^2 -\frac {n}{n-1}\sqrt n\Big(\bar x-\mu\Big)^2$

El término convierte en unidad asintóticamente. El término es determinista y se pone a cero como . $n/(n-1)$ $\frac {\sqrt n}{n-1}\sigma^2$ $n \rightarrow \infty$

También tenemos . El primer componente converge en distribución a Normal, el segundo converge en probabilidad a cero. Luego, según el teorema de Slutsky, el producto converge en probabilidad a cero, $\sqrt n\Big(\bar x-\mu\Big)^2 = \left[\sqrt n\Big(\bar x-\mu\Big)\right]\cdot \Big(\bar x-\mu\Big)$

\sqrt{n} (\bar{x} - μ)^{2} \overset{p}{\to} 0

$\sqrt n\Big(\bar x-\mu\Big)^2\xrightarrow{p} 0$

Nos quedamos con el término

[\sqrt{n} (\frac{1}{n} \sum_{i = 1}^{n} (X_{i} - μ)^{2} - σ^{2})]

$\left[\sqrt n\left(\frac 1n\sum_{i=1}^n\Big(X_i-\mu\Big)^2 -\sigma^2\right)\right]$

Alertado por un ejemplo letal ofrecido por @whuber en un comentario a esta respuesta , queremos asegurarnos de que no sea constante. Whuber señaló que si es un Bernoulli entonces esta cantidad es una constante. Entonces, excluyendo las variables para las cuales esto sucede (quizás otras dicotómicas, ¿no solo binario?), Para el resto tenemos $(X_i-\mu)^2$ $X_i$ $(1/2)$ $0/1$

E (X_{i} - μ)^{2} = σ^{2}, Var [(X_{i} - μ)^{2}] = μ_{4} - σ^{4}

$\mathrm{E}\Big(X_i-\mu\Big)^2 = \sigma^2,\;\; \operatorname {Var}\left[\Big(X_i-\mu\Big)^2\right] = \mu_4 - \sigma^4$

y entonces el término bajo investigación es un tema habitual del Teorema del Límite Central clásico, y

\sqrt{n} (s^{2} - σ^{2}) \overset{d}{\to} N (0, μ_{4} - σ^{4})

$\sqrt n(s^2 - \sigma^2) \xrightarrow{d} N\left(0,\mu_4 - \sigma^4\right)$

Nota: el resultado anterior, por supuesto, también es válido para muestras distribuidas normalmente, pero en este último caso también tenemos disponible un resultado de distribución de chi-cuadrado de muestra finita.

— Alecos Papadopoulos
fuente

+1 No hay razón para verificar las distribuciones dicotómicas generales porque todas son versiones a escala y ubicación del Bernoulli: el análisis para el Bernoulli es suficiente. Mis simulaciones (con tamaños de muestra de ) confirman el resultado .

10^{1000}

$10^{1000}$

χ_{1}^{2}

$\chi^2_1$

— whuber

@whuber Gracias por revisar. Tienes razón, por supuesto, sobre que Benroulli es la madre de todos ellos.

— Alecos Papadopoulos

Ya tiene una respuesta detallada a su pregunta, pero permítame ofrecerle otra. En realidad, es posible una prueba más corta basada en el hecho de que la distribución de

S^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} {(X_{i} - \bar{X})}^{2}

$S^2 = \frac{1}{n-1} \sum_{i=1}^n \left(X_i - \bar{X} \right)^2$

no depende de , digamos. Asintóticamente, tampoco importa si cambiamos el factor a , lo que haré por conveniencia. Entonces tenemos $E(X) = \xi$ $\frac{1}{n-1}$ $\frac{1}{n}$

\sqrt{n} (S^{2} - σ^{2}) = \sqrt{n} [\frac{1}{n} \sum_{i = 1}^{n} X_{i}^{2} - {\bar{X}}^{2} - σ^{2}]

$\sqrt{n} \left(S^2 - \sigma^2 \right) = \sqrt{n} \left[ \frac{1}{n} \sum_{i=1}^n X_i^2 - \bar{X}^2 - \sigma^2 \right]$

Y ahora asumimos sin pérdida de generalidad que y notamos que $\xi = 0$

\sqrt{n} {\bar{X}}^{2} = \frac{1}{\sqrt{n}} {(\sqrt{n} \bar{X})}^{2}

$\sqrt{n} \bar{X}^2 = \frac{1}{\sqrt{n}} \left( \sqrt{n} \bar{X} \right)^2$

tiene un límite de probabilidad cero, ya que el segundo término está limitado en probabilidad (por el CLT y el teorema de mapeo continuo), es decir, es . El resultado asintótico ahora se desprende del teorema de Slutzky y el CLT, ya que $O_p(1)$

\sqrt{n} [\frac{1}{n} \sum X_{i}^{2} - σ^{2}] \overset{D}{\to} N (0, τ^{2})

$\sqrt{n} \left[ \frac{1}{n} \sum X_i^2 - \sigma^2 \right] \xrightarrow{D} \mathcal{N} \left(0, \tau^2 \right)$

donde . Y eso lo hará. $\tau^2 = Var \left\{ X^2\right\} = \mathbb{E} \left(X^4 \right) - \left( \mathbb{E} \left(X^2\right) \right)^2$

— JohnK
fuente

Esto es ciertamente más económico. Pero reconsidere cuán inocuo es el supuesto . Por ejemplo, excluye el caso de una muestra de Bernoulli ( ), y como menciono al final de mi respuesta, para dicha muestra, este resultado asintótico no se cumple.

E (X) = 0

$E(X) =0$

p = 1 / 2

$p=1/2$

— Alecos Papadopoulos

@AlecosPapadopoulos De hecho, pero los datos siempre pueden estar centrados, ¿verdad? Me refiero a y podemos trabajar con estas variables. Para el caso de Bernoulli, ¿hay algo que nos impida hacerlo?

\sum_{i = 1}^{n} {(X_{i} - μ - (\bar{X} - μ))}^{2} = \sum_{i = 1}^{n} {(X_{i} - \bar{X})}^{2}

$\sum_{i=1}^n \left(X_i - \mu - ( \bar{X}-\mu) \right)^2 = \sum_{i=1}^n \left(X_i - \bar{X} \right)^2$

— JohnK

@AlecosPapadopoulos Oh sí, veo el problema.

— JohnK

He escrito un pequeño artículo sobre el tema, creo que es hora de subirlo a mi blog. Te notificaré en caso de que estés interesado en leerlo. La distribución asintótica de la varianza de la muestra en este caso es interesante, y aún más la distribución asintótica de la desviación estándar de la muestra. Estos resultados son válidos para cualquier variable aleatoria dicotómica 1/2.

p = 1 / 2

$p=1/2$

— Alecos Papadopoulos

Pregunta tonta, pero ¿cómo podemos suponer que

es auxiliar si

no es normal? ¿O es

siempre auxiliar (parametrización de la media de wrt, supongo) pero solo independiente de la media de la muestra cuando la media de la muestra es una estadística completa suficiente (es decir, normalmente distribuida) por el teorema de Basu?

S^{2}

$S^2$

X_{i}

$X_i$

S^{2}

$S^2$

— Chill2Macht

Las excelentes respuestas de Alecos y JohnK ya derivan el resultado que busca , pero me gustaría señalar algo más sobre la distribución asintótica de la varianza de la muestra.

Es común ver resultados asintóticos presentados utilizando la distribución normal, y esto es útil para establecer los teoremas. Sin embargo, en términos prácticos, el propósito de una distribución asintótica para una estadística de muestra es que le permite obtener una distribución aproximada cuando es grande. Hay muchas opciones que podría hacer para su aproximación de muestra grande, ya que muchas distribuciones tienen la misma forma asintótica. En el caso de la varianza muestral, en mi opinión, una distribución aproximada excelente para grande viene dada por: $n$ $n$

\frac{S_{n}^{2}}{σ^{2}} \sim \frac{Chi-Sq (df = D F_{n})}{D F_{n}},

$\frac{S_n^2}{\sigma^2} \sim \frac{\text{Chi-Sq}(\text{df} = DF_n)}{DF_n},$

$DF_n \equiv 2 / \mathbb{V}(S_n^2 / \sigma^2) = 2n / ( \kappa - (n-3)/(n-1))$ $\kappa = \mu_4 / \sigma^4$ es el parámetro de curtosis. Esta distribución es asintóticamente equivalente a la aproximación normal derivada del teorema (la distribución de chi cuadrado converge a la normal ya que los grados de libertad tienden al infinito). A pesar de esta equivalencia, esta aproximación tiene varias otras propiedades que le gustaría que tuviera su distribución aproximada:

A diferencia de la aproximación normal derivada directamente del teorema, esta distribución tiene el soporte correcto para la estadística de interés. La varianza muestral no es negativa, y esta distribución tiene soporte no negativo.
$\kappa = 3$ $DF_n = n-1$

Derivación del resultado anterior: los resultados de distribución aproximados para la media y la varianza de la muestra se analizan extensamente en O'Neill (2014) , y este documento proporciona derivaciones de muchos resultados, incluida la distribución aproximada actual.

Esta derivación comienza con el resultado limitante en la pregunta:

\sqrt{n} (S_{n}^{2} - σ^{2}) \sim N (0, σ^{4} (κ - 1)) .

$\sqrt{n} (S_n^2 - \sigma^2) \sim \text{N}(0, \sigma^4 (\kappa - 1)).$

Reorganizando este resultado obtenemos la aproximación:

\frac{S_{n}^{2}}{σ^{2}} \sim N (1, \frac{κ - 1}{n}) .

$\frac{S_n^2}{\sigma^2} \sim \text{N} \Big( 1, \frac{\kappa - 1}{n} \Big).$

$DF \rightarrow \infty$

\frac{Chi-Sq (D F)}{D F} \to \frac{1}{D F} N (D F, 2 D F) = N (1, \frac{2}{D F}) .

$\frac{\text{Chi-Sq}(DF)}{DF} \rightarrow \frac{1}{DF} \text{N} ( DF, 2DF ) = \text{N} \Big( 1, \frac{2}{DF} \Big).$

$DF_n \equiv 2 / \mathbb{V}(S_n^2 / \sigma^2)$ $DF_n \rightarrow 2n / (\kappa - 1)$

— Reinstalar a Mónica
fuente

Una pregunta empíricamente interesante es cuál de estos dos resultados asintóticos funciona mejor en casos de muestras finitas bajo varias distribuciones de datos subyacentes.

— lzstat

Sí, creo que sería un estudio de simulación muy interesante (y publicable). Dado que la fórmula actual se basa en la corrección de curtosis de la varianza de la varianza de la muestra, esperaría que el resultado actual funcionara mejor cuando tiene una distribución subyacente con un parámetro de curtosis que está lejos de ser mesocurtico (es decir, cuando la curtosis) la corrección es lo más importante). Dado que la curtosis debería estimarse a partir de la muestra, es una pregunta abierta sobre cuándo habrá una mejora sustancial en el rendimiento general.

— Vuelve a instalar a Monica el