La prueba de Barnard se usa cuando el parámetro molesto es desconocido bajo la hipótesis nula.
Sin embargo, en la prueba de degustación de mujeres, se podría argumentar que el parámetro molesto se puede establecer en 0.5 bajo la hipótesis nula (la mujer no informada tiene un 50% de probabilidad de adivinar correctamente una taza).
Luego, el número de conjeturas correctas, bajo la hipótesis nula, se convierte en una distribución binomial: adivinar 8 tazas con un 50% de probabilidad para cada taza.
En otras ocasiones, es posible que no tenga esta probabilidad trivial del 50% para la hipótesis nula. Y sin márgenes fijos, es posible que no sepa cuál debería ser esa probabilidad. En ese caso necesitas la prueba de Barnard.
Incluso si hiciera la prueba de Barnard en la prueba del té de degustación de mujeres, se convertiría en un 50% de todos modos (si el resultado es una suposición correcta) ya que el parámetro molesto con el valor p más alto es 0.5 y daría como resultado la prueba trivial binomial ( en realidad es la combinación de dos pruebas binomiales, una para las cuatro primeras tazas de leche y otra para las cuatro primeras tazas de té).
> library(Barnard)
> barnard.test(4,0,0,4)
Barnard's Unconditional Test
Treatment I Treatment II
Outcome I 4 0
Outcome II 0 4
Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)
> dbinom(8,8,0.5)
[1] 0.00390625
> dbinom(4,4,0.5)^2
[1] 0.00390625
A continuación se muestra cómo sería para un resultado más complicado (si no todas las suposiciones son correctas, por ejemplo, 2 frente a 4), entonces el conteo de lo que es y lo que no es extremo se vuelve un poco más difícil
(Tenga en cuenta también que la prueba de Barnard usa, en el caso de un resultado 4-2 un parámetro molesto p = 0.686 que podría argumentar que no es correcto, el valor p para una probabilidad del 50% de responder 'té primero' sería 0.08203125. Esto se vuelve aún más pequeño cuando considera una región diferente, en lugar de la basada en la estadística de Wald, aunque definir la región no es tan fácil )
out <- rep(0,1000)
for (k in 1:1000) {
p <- k/1000
ps <- matrix(rep(0,25),5) # probability for outcome i,j
ts <- matrix(rep(0,25),5) # distance of outcome i,j (using wald statistic)
for (i in 0:4) {
for (j in 0:4) {
ps[i+1,j+1] <- dbinom(i,4,p)*dbinom(j,4,p)
pt <- (i+j)/8
p1 <- i/4
p2 <- j/4
ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
}
}
cases <- ts < ts[2+1,4+1]
cases[1,1] = TRUE
cases[5,5] = TRUE
ps
out[k] <- 1-sum(ps[cases])
}
> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)
Barnard's Unconditional Test
Treatment I Treatment II
Outcome I 4 2
Outcome II 0 2
Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)