Quería entender mejor la prueba exacta del pescador, así que ideé el siguiente ejemplo de juguete, donde f y m corresponde a machos y hembras, y n e y corresponden a "consumo de refrescos" de esta manera:
> soda_gender
f m
n 0 5
y 5 0
Obviamente, esta es una simplificación drástica, pero no quería que el contexto se interpusiera. Aquí supuse que los hombres no beben refrescos y las mujeres beben refrescos, y quería ver si los procedimientos estadísticos llegan a la misma conclusión.
Cuando ejecuto la prueba exacta de Fisher en R, obtengo los siguientes resultados:
> fisher.test(soda_gender)
Fisher's Exact Test for Count Data
data: soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.0000000 0.4353226
sample estimates:
odds ratio
0
Aquí, dado que el valor p es 0.007937, concluiríamos que el consumo de géneros y gaseosas están asociados.
Sé que la prueba exacta de Fisher está relacionada con la distribución hipergeomterica. Así que quería obtener resultados similares usando eso. En otras palabras, puede ver estos problemas de la siguiente manera: hay 10 bolas, donde 5 están etiquetadas como "masculinas", y 5 están etiquetadas como "femeninas", y usted saca 5 bolas al azar sin reemplazo, y ve 0 bolas masculinas . ¿Cuál es la posibilidad de esta observación? Para responder a esta pregunta, utilicé el siguiente comando:
> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254
Mis preguntas son: 1) ¿Cómo es que los dos resultados son diferentes? 2) ¿Hay algo incorrecto o no riguroso en mi razonamiento anterior?