¿Cómo podemos obtener una distribución normal como si el rango de valores de nuestra variable aleatoria está acotado?

Digamos que tenemos una variable aleatoria con un rango de valores delimitados por y , donde es el valor mínimo el valor máximo. $a$ $b$ $a$ $b$

Me dijeron que como $n \to \infty$ , donde $n$ es el tamaño de nuestra muestra, la distribución muestral de nuestras medias muestrales es una distribución normal. Es decir, a medida que aumentamos $n$ nos acercamos más y más a una distribución normal, pero el límite real como $n \to \infty$ es igual a una distribución normal.

Sin embargo, ¿no es parte de la definición de la distribución normal que tiene que extenderse de $- \infty$ a $\infty$ ?

Si el máximo de nuestro rango es $b$ , entonces la media máxima de la muestra (independientemente del tamaño de la muestra) será igual a $b$ , y la media mínima de la muestra igual a $a$ .

Entonces, me parece que incluso si tomamos el límite cuando $n$ aproxima al infinito, nuestra distribución no es una distribución normal real, porque está limitada por $a$ y $b$ .

¿Qué me estoy perdiendo ?

— jeremy radcliff
fuente

Respuestas:

Esto es lo que te estás perdiendo. La distribución asintótica no es de (la media de la muestra), pero de , donde es la media de . $\bar{X}_n$ $\sqrt{n}(\bar{X}_n - \theta)$ $\theta$ $X$

Deje iid variables aleatorias tales que y tiene media y la varianza . Por lo tanto, tiene soporte limitado. El CLT dice que $X_1, X_2, \dots$ $a < X_i <b$ $X_i$ $\theta$ $\sigma^2$ $X_i$

\sqrt{n} ({\bar{X}}_{n} - θ) \overset{d}{\to} N (0, σ^{2}),

$\sqrt{n}(\bar{X}_n - \theta) \overset{d}{\to} N(0, \sigma^2),$

donde es la media muestral. Ahora $\bar{X}_n$

\begin{aligned} a < & X_{i} < b \\ a < & {\bar{X}}_{n} < b \\ a - θ < & {\bar{X}}_{n} - θ < b - θ \\ \sqrt{n} (a - θ) < & \sqrt{n} ({\bar{X}}_{n} - θ) < \sqrt{n} (b - θ) . \end{aligned}

$\begin{align*} a < &X_i <b\\ a < & \bar{X}_n <b\\ a-\theta < &\bar{X}_n - \theta < b - \theta\\ \sqrt{n}(a - \theta) < & \sqrt{n}(\bar{X}_n - \theta) < \sqrt{n}(b - \theta).\\ \end{align*}$

Como , el límite inferior y el límite superior tienden a y respectivamente, y por lo tanto como el soporte de es exactamente toda la línea real. $n \to \infty$ $-\infty$ $\infty$ $n \to \infty$ $\sqrt{n}(\bar{X}_n - \theta)$

Cada vez que usamos el CLT en la práctica, decimos , y esto siempre será una aproximación. $\bar{X}_n \approx N(\theta, \sigma^2/n)$

EDITAR: Creo que parte de la confusión proviene de la mala interpretación del Teorema del límite central. Tiene razón en que la distribución muestral de la media muestral es

{\bar{X}}_{n} \approx N (θ, σ^{2} / n) .

$\bar{X}_n \approx N(\theta, \sigma^2/n).$

Sin embargo, la distribución de muestreo es una propiedad de muestra finita. Como dijiste, queremos dejar ; una vez que lo hagamos, el signo será un resultado exacto. Sin embargo, si dejamos , ya no podemos tener una en el lado derecho (ya que es ahora ). Entonces, la siguiente declaración es incorrecta $n \to \infty$ $\approx$ $n \to \infty$ $n$ $n$ $\infty$

{\bar{X}}_{n} \overset{d}{\to} N (θ, σ^{2} / n) as n \to \infty .

$\bar{X}_n \overset{d}{\to} N(\theta, \sigma^2/n) \text{ as } n \to \infty.$

[Aquí significa convergencia en términos de distribución]. Queremos escribir el resultado con precisión, por lo que la no está en el lado derecho. Aquí ahora usamos propiedades de variables aleatorias para obtener $\overset{d}{\to}$ $n$

\sqrt{n} ({\bar{X}}_{n} - θ) \overset{d}{\to} N (0, σ^{2})

$\sqrt{n}(\bar{X}_n - \theta) \overset{d}{\to} N(0, \sigma^2)$

Para ver cómo funciona el álgebra, mira la respuesta aquí .

— Greenparker
fuente

Gracias. Entiendo su álgebra de desigualdad, pero todavía tengo cierta confusión sobre su primer párrafo: "La distribución asintótica no es de (la media de la muestra), sino de ... ". Pensé que el CLT decía que la distribución de muestreo de las medias de muestra se aproxima a una distribución normal como , y pensé que era el RV que toma todos los valores posibles de muestras de tamaño . ¿De dónde viene ? ¿Por qué nos interesa esa distribución y no la distribución de ?

{\bar{X}}_{n}

$\bar{X}_n$

\sqrt{n} ({\bar{X}}_{n} - θ)

$\sqrt{n} (\bar{X}_n - \theta)$

n \to \infty

$n \to \infty$

{\bar{X}}_{n}

$\bar{X}_n$

n

$n$

\sqrt{n} ({\bar{X}}_{n} - θ)

$\sqrt{n} (\bar{X}_n - \theta)$

{\bar{X}}_{n}

$\bar{X}_n$

— jeremy radcliff

(continuación) ¿Se trata de normalizar la distribución de las medias muestrales? ¿Es de aquí de donde viene la raíz cuadrada? ¿Tiene que ver con los puntajes ?

Z

$Z$

— jeremy radcliff

@ jeremyradcliff He editado mi respuesta e incluí un enlace que explica algunos de los detalles. Espero que esto tenga más sentido ahora.

— Greenparker

Muchas gracias por tomarse el tiempo para editar, el enlace que proporcionó es exactamente lo que estaba buscando. Y tiene razón, el problema fue que tuve problemas para conciliar la naturaleza finita de la distribución de muestreo y el hecho de que estamos tomando to .

n

$n$

\infty

$\infty$

— jeremy radcliff

Si se refiere a un teorema del límite central, tenga en cuenta que una forma adecuada de escribirlo es

$\left( \frac{\bar x - \mu} {\sigma} \right) \sqrt n \rightarrow_d N(0,1)$

en condiciones normales ( es la media y la desviación estándar de ). $\mu, \sigma$ $x_i$

Con esta definición formal, puede ver de inmediato que el lado izquierdo puede tomar valores para cualquier rango finito dado un suficientemente grande . $n$

Para ayudar a conectarnos con la idea informal de que "una media se acerca a una distribución normal para grande ", debemos darnos cuenta de que "se acerca a una distribución normal" significa que los CDF se acercan arbitrariamente a una distribución normal a medida que aumenta. Pero a medida que aumenta, la desviación estándar de esta distribución aproximada se reduce, por lo que la probabilidad de una cola extrema de la normal aproximada también va a 0. $n$ $n$ $n$

Por ejemplo, suponga . Entonces podrías usar la aproximación informal para decir que $X_i \sim \text{Bern}(p = 0.5)$

$\bar X \dot \sim N\left(p, \frac{p(1-p)}{n}\right)$

Entonces, si bien es cierto que para cualquier finito , $n$

$P\left(N\left(p, \frac{p(1-p)}{n}\right) < 0\right) >0$

(lo que implica que la aproximación es claramente nunca perfecta), como , $n \rightarrow \infty$

$P\left(N\left(p, \frac{p(1-p)}{n}\right) < 0\right) \rightarrow 0$

De modo que esa discrepancia entre la distribución real y la distribución aproximada está desapareciendo, como se supone que sucede con las aproximaciones.

— Acantilado
fuente