Por qué una estadística T necesita los datos para seguir una distribución normal

11

Estaba mirando este cuaderno y me sorprende esta afirmación:

Cuando hablamos de normalidad, lo que queremos decir es que los datos deberían verse como una distribución normal. Esto es importante porque varias pruebas estadísticas se basan en esto (por ejemplo, estadísticas t).

No entiendo por qué una estadística T necesita los datos para seguir una distribución normal.

De hecho, Wikipedia dice lo mismo:

La distribución t de Student (o simplemente la distribución t) es cualquier miembro de una familia de distribuciones de probabilidad continua que surge al estimar la media de una población normalmente distribuida

Sin embargo, no entiendo por qué esta suposición es necesaria.

Nada de su fórmula me indica que los datos tienen que seguir una distribución normal:

Miré un poco en su definición, pero no entiendo por qué la condición es necesaria.

mathematical-statistics normal-distribution

— octaviano
fuente

17

La información que necesita se encuentra en la sección "Caracterización" de la página Wiki . Una distribución con grados de libertad puede definirse como la distribución de la variable aleatoria tal que donde es una distribución normal estándar variable aleatoria y es una variable aleatoria con grados de libertad . Además, y deben ser independientes. Entonces, dado cualquier y que siga la definición anterior, puede llegar a una variable aleatoria que tiene un $t$ $\nu$ $T$

T = \frac{Z}{\sqrt{V / ν}},

$T = \dfrac{Z}{\sqrt{V/\nu}} \,,$

Z

$Z$

V

$V$

χ^{2}

$\chi^2$

ν

$\nu$

Z

$Z$

V

$V$

Z

$Z$

V

$V$

t

$t$ Distribución .

Ahora, supongamos que se distribuye según una distribución . Deje que tenga media y varianza . Sea la media muestral y la varianza muestral. Luego veremos las fórmulas: $X_1, X_2, \dots, X_n$ $F$ $F$ $\mu$ $\sigma^2$ $\bar{X}$ $S^2$

\frac{\bar{X} - μ}{S / \sqrt{n}} = \frac{\frac{\bar{X} - μ}{σ / \sqrt{n}}}{\sqrt{\frac{(n - 1) S^{2}}{(n - 1) σ^{2}}}} .

$\dfrac{\bar{X} - \mu}{S/\sqrt{n}} = \dfrac{\frac{\bar{X} - \mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{(n-1)\sigma^2}}} \,.$

Si, denota la distribución normal, entonces , y por lo tanto . Además, por el teorema de Cochran . Finalmente, mediante una aplicación del teorema de Basu , y son independientes. Esto implica que la estadística resultante tiene una distribución con grados de libertad. $F$ $\bar{X} \sim N(\mu, \sigma^2/n)$ $\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)$ $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}$ $\bar{X}$ $S^2$ $t$ $n-1$

Si la distribución de datos original no era normal, entonces, la distribución exacta del numerador y el denominador no será normal normal y , respectivamente, y por lo tanto las estadísticas resultantes no tendrán una distribución . $F$ $\chi^2$ $t$

— Greenparker
fuente

3

Siempre me ha parecido bastante interesante cuánta tecnología matemática entra en estos resultados fundamentales en estadística matemática.

— Matthew Drury

3

Buen post. Sin embargo, no necesitamos invocar esos grandes teoremas para demostrar la independencia entre y , así como la . Vea la primera respuesta de esta publicación.

\bar{X}

$\bar{X}$

S

$S$

χ^{2}

$\chi^2$

— Zhanxiong

2

Creo que puede haber cierta confusión entre la estadística y su fórmula, en comparación con la distribución y su fórmula. Puede aplicar la fórmula de estadística t a cualquier conjunto de datos y obtener una "estadística t", pero esta estadística no se distribuirá de acuerdo con la distribución t de student a menos que los datos provengan de una distribución normal (o al menos, no serán garantizado; mi suposición es que las distribuciones no normales no producirán una distribución de t de estudiante cuando se aplica la fórmula de estadística t, pero no estoy seguro de eso). La razón de esto es simplemente que la distribución de la estadística t se calcula a partir de la distribución de los datos que la generaron, por lo que si tiene una distribución subyacente diferente, no se garantiza que tenga la misma distribución para las estadísticas derivadas.

— Acumulacion
fuente