Comprender la prueba de Chi-cuadrado y la distribución de Chi-cuadrado

Estoy tratando de entender la lógica detrás de la prueba de chi-cuadrado.

La prueba de Chi-cuadrado es . luego se compara con una distribución de Chi-cuadrado para encontrar un valor p para rechazar o no la hipótesis nula. : las observaciones provienen de la distribución que utilizamos para crear nuestros valores esperados. Por ejemplo, podríamos probar si la probabilidad de obtenciónviene dada porcomo esperamos. Así que tapa 100 veces y encontramosy. Queremos comparar nuestro hallazgo con lo que se espera ( $\chi ^2 = \sum \frac{(obs-exp)^2}{exp}$ $\chi ^2$ $H_0$ head $p$ $n_H$ Heads $1-n_H$ tails $100 \cdot p$ ). También podríamos usar una distribución binomial, pero no es el punto de la pregunta ... La pregunta es:

¿Puede explicar por qué, bajo la hipótesis nula, $\sum \frac{(obs-exp)^2}{exp}$ sigue una distribución chi-cuadrado?

Todo lo que sé sobre la distribución de Chi-cuadrado es que la distribución de Chi-cuadrado de grado es la suma de $k$ $k$ la distribución normal estándar cuadrado.

— Remi.b
fuente

No lo hace: esta es una aproximación. (Mucho) más sobre esto aparece en el hilo en stats.stackexchange.com/questions/16921/… .

— whuber

Esto puede ser de interés Karl Pearson y la prueba de Chi-cuadrado, (Placket, 1983) {pdf}

— Avraham

Una pregunta relacionada sobre por qué la distribución de chi-cuadrado se usa para las pruebas de bondad de ajuste, aunque no es un duplicado: stats.stackexchange.com/questions/125312/…

— Silverfish

También podríamos usar una distribución binomial, pero no es el punto de la pregunta ...

Sin embargo, es nuestro punto de partida incluso para su pregunta real. Lo cubriré de manera informal.

Consideremos con el caso binomial de manera más general:

$Y\sim \text{Bin}(n,p)$

Supongamos y son tales que es bien aproximada por una normal con la misma varianza media y (algunos requisitos típicos son de no es pequeño, o que $n$ $p$ $Y$ $\min(np,n(1-p))$ $np(1-p)$ no es pequeño).

$(Y-E(Y))^2/\text{Var}(Y)$ $\sim\chi^2_1$ $Y$ es el número de éxitos.

$E(Y) = np$ $\text{Var}(Y)=np(1-p)$

$n$ $p$ $H_0$ No hacemos ninguna estimación).

$(Y-np)^2/np(1-p)$ $\sim\chi^2_1$ .

$(Y-np)^2 = [(n-Y)-n(1-p)]^2$ $\frac{1}{p} + \frac{1}{1-p} = \frac{1}{p(1-p)}$

$\frac{(Y-np)^2}{np(1-p)} = \frac{(Y-np)^2}{np}+\frac{(Y-np)^2}{n(1-p)}\\ \quad= \frac{(Y-np)^2}{np}+\frac{[(n-Y)-n(1-p)]^2}{n(1-p)} \\ \quad= \frac{(O_S-E_S)^2}{E_S}+\frac{(O_F-E_F)^2}{E_F}$

Que es solo la estadística de chi-cuadrado para el caso binomial.

Entonces, en ese caso, la estadística de chi-cuadrado debe tener la distribución del cuadrado de una variable aleatoria normal normal (aproximadamente).

— Glen_b -Reinstate a Monica
fuente