¿A qué nivel es una prueba

ANTECEDENTES: Salte con seguridad: está aquí como referencia y para legitimar la pregunta.

La apertura de este documento dice:

"Famosa prueba de contingencia chi-cuadrado de Karl Pearson se deriva de otra estadística, llamada la estadística z, basado en la distribución Normal. Las versiones más simples de $\chi^2$ se pueden demostrar ser matemáticamente idéntica a pruebas z equivalentes. Las pruebas producen el mismo resultado en todas las circunstancias. Para todos los efectos, "chi-cuadrado" podría llamarse "z-cuadrado". Los valores críticos de $\chi^2$ para un grado de libertad son el cuadrado de los valores críticos correspondientes de z ".

Esto se ha afirmado varias veces en CV ( aquí , aquí , aquí y otros).

Y de hecho podemos demostrar que $\chi^2_{1\,df}$ es equivalente a $X^2$ con $X\sim N(0,1)$ :

Digamos que $X \sim N(0,1)$ y que $Y=X^2$ y encuentre la densidad de $Y$ utilizando el método $cdf$ :

$p(Y \leq y) = p(X^2 \leq y)= p(-\sqrt{y} \leq x \leq \sqrt{y})$ . El problema es que no podemos integrar de forma cercana la densidad de la distribución normal. Pero podemos expresarlo:

F_{X} (y) = F_{X} (\sqrt{y}) - F_{X} (- \sqrt{y}) .

$F_X(y) = F_X(\sqrt{y})- F_X(-\sqrt[]{y}).$ Tomando la derivada:

f_{X} (y) = F_{X}^{'} (\sqrt{y}) \frac{1}{2 \sqrt{y}} + F_{X}^{'} (\sqrt{- y}) \frac{1}{2 \sqrt{y}} .

$f_X(y)= F_X'(\sqrt{y})\,\frac{1}{2\sqrt{y}}+ F_X'(\sqrt{-y})\,\frac{1}{2\sqrt{y}}.$

Como los valores de la normal son simétricos: $pdf$

. Igualando esto a lade lo normal (ahora laen laserá $f_X(y)= F_X'(\sqrt{y})\,\frac{1}{\sqrt{y}}$ $pdf$ $x$ $pdf$ para enchufarlo en el $\sqrt{y}$ parte de la normal); y recordando incluir $e^{-\frac{x^2}{2}}$ $pdf$ al final: $\frac{1}{\sqrt{y}}$

f_{X} (y) = F_{X}^{'} (\sqrt{y}) \frac{1}{\sqrt{y}} = \frac{1}{\sqrt{2 π}} e^{- \frac{y}{2}} \frac{1}{\sqrt{y}} = \frac{1}{\sqrt{2 π}} e^{- \frac{y}{2}} y^{\frac{1}{2} - 1}

$f_X(y)= F_X'(\sqrt[]{y})\,\frac{1}{\sqrt[]{y}}= \frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, \frac{1}{\sqrt[]{y}}=\frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, y^{\frac{1}{2}- 1}$

Compare con el pdf del chi cuadrado:

f_{X} (x) = \frac{1}{2^{ν / 2} Γ (\frac{ν}{2})} e^{\frac{- x}{2}} x^{\frac{ν}{2} - 1}

$f_X(x)= \frac{1}{2^{\nu/2}\Gamma(\frac{\nu}{2})}e^{\frac{-x}{2}}x^{\frac{\nu}{2}-1}$

Desde , paradf, hemos derivado exactamente ladel chi cuadrado. $\Gamma(1/2)=\sqrt{\pi}$ $1$ $pdf$

Además, si llamamos a la función prop.test()en R, estamos invocando la misma prueba como si decidiéramos . $\chi^2$ chisq.test()

LA PREGUNTA:

Así que obtengo todos estos puntos, pero todavía no sé cómo se aplican a la implementación real de estas dos pruebas por dos razones:

Una prueba z no es al cuadrado.
Las estadísticas de prueba reales son completamente diferentes:

El valor de la estadística de prueba para un $\chi^2$ es:

donde $\chi^2 = \sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i} = N \sum_{i=1}^n p_i \left(\frac{O_i/N - p_i}{p_i}\right)^2$

= estadística de prueba acumulativa de Pearson, que asintóticamente se acerca a unadistribución . = el número de observaciones de tipo ; = número total de observaciones; = = la frecuencia esperada (teórica) de tipo , afirmada por la hipótesis nula de que la fracción de tipo en la población es ; = el número de celdas en la tabla. $\chi^2$ $\chi^2$ $O_i$ $i$ $N$ $E_i$ $N p_i$ $i$ $i$ $p_i$ $n$

Por otro lado, el estadístico de prueba para una prueba es: $z$

con $\displaystyle Z = \frac{\frac{x_1}{n_1}-\frac{x_2}{n_2}}{\sqrt{p\,(1-p)(1/n_1+1/n_2)}}$ , dondeyson el número de "éxitos", sobre el número de sujetos en cada uno de los niveles de las variables categóricas, es decir,y. $\displaystyle p = \frac{x_1\,+\,x_2}{n_1\,+\,n_2}$ $x_1$ $x_2$ $n_1$ $n_2$

Esta fórmula parece basarse en la distribución binomial.

Estas dos estadísticas de pruebas son claramente diferentes y dan como resultado diferentes resultados para las estadísticas de prueba reales, así como para los valores p : 5.8481para y para la prueba z, donde (gracias, @ mark999 ) El valor p para la prueba es , mientras que para la prueba z es . La diferencia se explica por dos colas versus una cola: (gracias @amoeba). $\chi^2$ 2.4183 $\small 2.4183^2=5.84817$ $\chi^2$ 0.015590.0077 $\small 0.01559/2=0.007795$

Entonces, ¿a qué nivel decimos que son lo mismo?

chi-squared proportion z-test

— Antoni Parellada
fuente

Pero estas son dos pruebas idénticas. Z al cuadrado es la estadística de chi-cuadrado. Le permite tener una tabla de frecuencia de 2x2 donde las columnas son los dos grupos y las filas son "éxito" y "falla". Entonces, las llamadas frecuencias esperadas de la prueba de chi-cuadrado en una columna dada es el perfil de columna (grupo) promedio ponderado (por el grupo N) multiplicado por el N. de ese grupo. Por lo tanto, resulta que la prueba de chi-cuadrado prueba la desviación de cada uno de los dos grupos de perfiles de este perfil de grupo promedio, que es equivalente a probar la diferencia de los perfiles de los grupos entre sí, la prueba z de proporciones.

— ttnphns

In the example on the last hyperlink the

χ^{2}

$\chi^2$ is almost the square of the z-test statistic, but not quite, and the p-values are different. Also, when you look at the formulas for the rest statistics above, is it truly immediate that they are identical? Or even one the square of the other?

— Antoni Parellada

In chisq.test(), have you tried using correct=FALSE?

— mark999

Indeed, Antoni. Both tests exist with or without the Yates. Could it be that you compute one with but the other without it?

— ttnphns

Thank you! You were (predictably) correct. With the Yates correction off, one is just the square of the other. I edited the question accordingly, although a bit fast. I still would like to prove algebraically that both test statistics are the same (or one the square of the other), and understand why the p-values are different.

— Antoni Parellada

Let us have a 2x2 frequency table where columns are two groups of respondents and rows are the two responses "Yes" and "No". And we've turned the frequencies into the proportions within group, i.e. into the vertical profiles:

      Gr1   Gr2  Total
Yes   p1    p2     p
No    q1    q2     q
      --------------
     100%  100%   100%
      n1    n2     N

$\chi^2$ of this table, after you substitute proportions instead of frequencies in its formula, looks like this:

n_{1} [\frac{(p_{1} - p)^{2}}{p} + \frac{(q_{1} - q)^{2}}{q}] + n_{2} [\frac{(p_{2} - p)^{2}}{p} + \frac{(q_{2} - q)^{2}}{q}] = \frac{n_{1} (p_{1} - p)^{2} + n_{2} (p_{2} - p)^{2}}{p q} .

$n_1[\frac{(p_1-p)^2}{p}+\frac{(q_1-q)^2}{q}]+n_2[\frac{(p_2-p)^2}{p}+\frac{(q_2-q)^2}{q}]= \frac{n_1(p_1-p)^2+n_2(p_2-p)^2}{pq}.$

Remember that $p= \frac{n_1p_1+n_2p_2}{n_1+n_2}$ , the element of the weighted average profile of the two profiles (p1,q1) and (p2,q2), and plug it in the formula, to obtain

. . . = \frac{(p_{1} - p_{2})^{2} (n_{1}^{2} n_{2} + n_{1} n_{2}^{2})}{p q N^{2}}

$...= \frac{(p_1-p_2)^2(n_1^2n_2+n_1n_2^2)}{pqN^2}$

Divide both numerator and denominator by the $(n_1^2n_2+n_1n_2^2)$ and get

\frac{(p_{1} - p_{2})^{2}}{p q (1 / n_{1} + 1 / n_{2})} = Z^{2},

$\frac{(p_1-p_2)^2}{pq(1/n_1+1/n_2)}=Z^2,$

the squared z-statistic of the z-test of proportions for "Yes" response.

Thus, the 2x2 homogeneity Chi-square statistic (and test) is equivalent to the z-test of two proportions. The so called expected frequencies computed in the chi-square test in a given column is the weighted (by the group n) average vertical profile (i.e. the profile of the "average group") multiplied by that group's n. Thus, it comes out that chi-square tests the deviation of each of the two groups profiles from this average group profile, - which is equivalent to testing the groups' profiles difference from each other, which is the z-test of proportions.

This is one demonstration of a link between a variables association measure (chi-square) and a group difference measure (z-test statistic). Attribute associations and group differences are (often) the two facets of the same thing.

(Showing the expansion in the first line above, By @Antoni's request):

$n_1[\frac{(p_1-p)^2}{p}+\frac{(q_1-q)^2}{q}]+n_2[\frac{(p_2-p)^2}{p}+\frac{(q_2-q)^2}{q}] = \frac{n_1(p_1-p)^2q}{pq}+\frac{n_1(q_1-q)^2p}{pq}+\frac{n_2(p_2-p)^2q}{pq}+\frac{n_2(q_2-q)^2p}{pq} = \frac{n_1(p_1-p)^2(1-p)+n_1(1-p_1-1+p)^2p+n_2(p_2-p)^2(1-p)+n_2(1-p_2-1+p)^2p}{pq} = \frac{n_1(p_1-p)^2(1-p)+n_1(p-p_1)^2p+n_2(p_2-p)^2(1-p)+n_2(p-p_2)^2p}{pq} = \frac{[n_1(p_1-p)^2][(1-p)+p]+[n_2(p_2-p)^2][(1-p)+p]}{pq} = \frac{n_1(p_1-p)^2+n_2(p_2-p)^2}{pq}.$

— ttnphns
fuente

@ttnphs This is great! Any chance you could clarify the intermediate step in the first equation (

χ^{2}

$\chi^2$ ) formula - I don't see how the

q

$q$ 's go away after the equal sign.

— Antoni Parellada

@ttnphs When I expand it I get

n_{1} [\frac{(p_{1} - p)^{2}}{p} + \frac{(q_{1} - q)^{2}}{q}] + n_{2} [\frac{(p_{2} - p)^{2}}{p} + \frac{(q_{2} - q)^{2}}{q}] = n_{1} (\frac{q (p^{2} + p (- 2 p_{1} - 2 q_{1} + p_{1}^{2}) + p (q^{2} + q_{1}^{2})}{p q}) + n_{2} (\frac{q (p^{2} + p (- 2 p_{2} - 2 q_{2}) + p_{2}^{2}) + p (q^{2} + q_{2}^{2})}{p q})

$n_1[\frac{(p_1-p)^2}{p}+\frac{(q_1-q)^2}{q}]+n_2[\frac{(p_2-p)^2}{p}+\frac{(q_2-q)^2}{q}]=n_1(\frac{q(p^2+p(-2p_1-2q_1+p_1^2)+p(q^2+q_1^2)}{pq})+n_2(\frac{q(p^2+p(-2p_2-2q_2)+p_2^2)+p(q^2+q_2^2)}{pq})$

— Antoni Parellada

@ttnphs ... Or some reference so it's less work to type the latex... And I'll promptly and happily 'accept' the answer...

— Antoni Parellada

@Antoni, expansion inserted.

— ttnphns

@ttnphns Awesome!

— Antoni Parellada