zχ2
z -test:
Hay dos preocupaciones acerca de la conveniencia de usar la prueba , ambas con respecto a si la distribución de muestreo asumida es correcta. Primero, la prueba utiliza la distribución normal en lugar de la distribución , lo que implica que las desviaciones estándar se conocen sin error de muestreo. Segundo, la distribución de muestreo es continua, pero los datos son discretos; Como solo son posibles ciertas combinaciones de datos, solo son posibles ciertos valores estadísticos de prueba realizados, que pueden no coincidir con la distribución de muestreo teórico. (Discuto este tema en el contexto de otras pruebas aquí: comparación y contraste, valores p, niveles de significancia y error tipo I ). z tzzt
Consideremos la primera preocupación en un contexto diferente. Si tiene dos grupos con datos distribuidos normalmente, y desea ver si las medias son equivalentes, debe calcular tanto las medias como las desviaciones estándar. Ahora sabemos que las medias están sujetas a errores de muestreo, por eso necesitamos hacer la prueba en lugar de decir que estas dos medias de muestra no son idénticas. Sin embargo, nuestras estimaciones de las desviaciones estándar también deben estar sujetas a errores de muestreo y tenemos que tener en cuenta ese hecho de alguna manera. Cuando hacemos eso, resulta que el estadístico de prueba (una especie de diferencia de medias escalada) se distribuye como . Si usamos la distribución normal en su lugar (es decir, laz ztz-test), significaría que estamos asumiendo que nuestras estimaciones de las desviaciones estándar son sin error - perfecto. Entonces, ¿por qué podría usarse la prueba en su caso? La razón es que sus datos son binomiales (es decir, el número de "éxitos" de un total conocido de "ensayos"), en lugar de lo normal. En la distribución binomial , la desviación estándar es una función de la media, por lo que una vez que haya estimado la media no hay ninguna incertidumbre adicional de la que deba preocuparse. Por lo tanto, la distribución normal puede usarse como modelo de la distribución de muestreo del estadístico de prueba. z
Aunque utilizar la distribución normal para comprender el comportamiento a largo plazo de la estadística de prueba es técnicamente correcto, surge otro problema. El problema es que la distribución normal es continua, pero debido a que sus datos son discretos, no todos los valores en la distribución teórica se pueden encontrar en su conjunto de datos. (Una vez más, discuto este tema en mucho más detalle en la respuesta anteriormente unido.) Afortunadamente, el partido entre los posibles resultados de sus datos y la distribución normal de muestreo teórico se pone mejor cuanto mayor sea . En su caso, no importa cuáles sean las verdaderas probabilidades subyacentes, podría tener tantos éxitos o tan pocos como ninguno en cada grupo. Eso significa que el número de combinaciones posibles es91 × 91 = 1 ,NN = 180 z91×91=1,729, que es muchas posibilidades. Con un pequeño conjunto de datos, realmente puede encontrarse con algunos de los tipos de problemas que discuto en mi respuesta vinculada, pero con , no tiene mucho de qué preocuparse. Creo que la prueba fue una elección válida para los investigadores. N=180z
χ2 -test:
Pero, ¿qué pasa con la ? Creo que también es una opción válida, pero no sería mi primera opción. (Permítanme señalar de paso que la segunda preocupación discutida anteriormente, un desajuste entre datos discretos y una distribución de referencia continua, se aplica tanto a la como a la prueba , por lo que hay sin ventaja aquí.) El problema con elχ 2 z χ 2 χ 2 z zχ2χ2zχ2-test es que no asume que hay algo especial en los totales de columna en relación con los totales de fila; ambos se tratan como si pudieran haber sido otros valores posibles. Sin embargo, esto no refleja con precisión la configuración experimental. Había 180 personas, y 90 fueron asignados a cada grupo. Lo único que realmente variaría entre estudios idénticos repetidos es la cantidad de personas que se resfriaron en cada grupo. La trata incorrectamente tanto la cantidad de resfriados como la cantidad de personas en cada grupo como si pudieran variar, pero la prueba hace la suposición correcta. Es por eso que la prueba tiene más poder aquí. χ2zz
Por lo que vale, la prueba de permutación sugerida por @jbowman también hace que este aspecto de su diseño sea correcto y no sufre el problema de discrepancia continua discreta. Por lo tanto, es la mejor opción. Pero pensé que te gustaría saber un poco más sobre cómo se comparan las pruebas y en tu situación. χ 2zχ2