ANTECEDENTES: Salte con seguridad: está aquí como referencia y para legitimar la pregunta.
La apertura de este documento dice:
"Famosa prueba de contingencia chi-cuadrado de Karl Pearson se deriva de otra estadística, llamada la estadística z, basado en la distribución Normal. Las versiones más simples de se pueden demostrar ser matemáticamente idéntica a pruebas z equivalentes. Las pruebas producen el mismo resultado en todas las circunstancias. Para todos los efectos, "chi-cuadrado" podría llamarse "z-cuadrado". Los valores críticos de para un grado de libertad son el cuadrado de los valores críticos correspondientes de z ".
Esto se ha afirmado varias veces en CV ( aquí , aquí , aquí y otros).
Y de hecho podemos demostrar que es equivalente acon:
Digamos que y que y encuentre la densidad de utilizando el método :
. El problema es que no podemos integrar de forma cercana la densidad de la distribución normal. Pero podemos expresarlo:
Como los valores de la normal son simétricos:
. Igualando esto a lapdfde lo normal (ahora laxen lapdfserá√ para enchufarlo en ele - x 2 parte de la normalpdf); y recordando incluir1 al final:
Compare con el pdf del chi cuadrado:
Desde , para1df, hemos derivado exactamente lapdfdel chi cuadrado.
Además, si llamamos a la función prop.test()
en R, estamos invocando la misma prueba como si decidiéramos .chisq.test()
LA PREGUNTA:
Así que obtengo todos estos puntos, pero todavía no sé cómo se aplican a la implementación real de estas dos pruebas por dos razones:
Una prueba z no es al cuadrado.
Las estadísticas de prueba reales son completamente diferentes:
El valor de la estadística de prueba para un es:
donde
= estadística de prueba acumulativa de Pearson, que asintóticamente se acerca a unadistribución χ 2 . O i = el número de observaciones de tipo i ; N = número total de observaciones; E i = N p i = la frecuencia esperada (teórica) de tipo i , afirmada por la hipótesis nula de que la fracción de tipo i en la población es p i ; n = el número de celdas en la tabla.
Por otro lado, el estadístico de prueba para una prueba es:
conp=x1 , dondex1yx2son el número de "éxitos", sobre el número de sujetos en cada uno de los niveles de las variables categóricas, es decir,n1yn2.
Esta fórmula parece basarse en la distribución binomial.
Estas dos estadísticas de pruebas son claramente diferentes y dan como resultado diferentes resultados para las estadísticas de prueba reales, así como para los valores p : 5.8481
para y para la prueba z, donde 2.4183 2 = 5.84817 (gracias, @ mark999 ) El valor p para la prueba χ 2 es , mientras que para la prueba z es . La diferencia se explica por dos colas versus una cola: 0.01559 / 2 = 0.007795 (gracias @amoeba).2.4183
0.01559
0.0077
Entonces, ¿a qué nivel decimos que son lo mismo?
chisq.test()
, have you tried using correct=FALSE
?