Estoy interesado en el modelado de datos de respuesta binaria en observaciones emparejadas. Nuestro objetivo es hacer una inferencia sobre la efectividad de una intervención pre-post en un grupo, ajustando potencialmente varias covariables y determinando si existe una modificación del efecto por parte de un grupo que recibió un entrenamiento particularmente diferente como parte de una intervención.
Datos dados de la siguiente forma:
id phase resp
1 pre 1
1 post 0
2 pre 0
2 post 0
3 pre 1
3 post 0
Y una tabla de contingencia de información de respuesta emparejada:
Estamos interesados en la prueba de hipótesis: .
La prueba de McNemar da: bajoH0(asintóticamente). Esto es intuitivo debido a que, bajo la hipótesis nula, es de esperar una proporción igual de los pares discordantes (byc) estar a favor de un efecto positivo (b) o un efecto negativo (c). Con la probabilidad de definición de caso positiva definidap=b yn=b+c. La probabilidad de observar un par discordante positivo esp .
Por otro lado, la regresión logística condicional utiliza un enfoque diferente para probar la misma hipótesis, maximizando la probabilidad condicional:
donde .
Entonces, ¿cuál es la relación entre estas pruebas? ¿Cómo se puede hacer una prueba simple de la tabla de contingencia presentada anteriormente? Al observar la calibración de los valores p de clogit y los enfoques de McNemar bajo nulo, ¡pensaría que no tenían relación alguna!
library(survival)
n <- 100
do.one <- function(n) {
id <- rep(1:n, each=2)
ph <- rep(0:1, times=n)
rs <- rbinom(n*2, 1, 0.5)
c(
'pclogit' = coef(summary(clogit(rs ~ ph + strata(id))))[5],
'pmctest' = mcnemar.test(table(ph,rs))$p.value
)
}
out <- replicate(1000, do.one(n))
plot(t(out), main='Calibration plot of pvalues for McNemar and Clogit tests',
xlab='p-value McNemar', ylab='p-value conditional logistic regression')
exact2x2
pueden ser referencias.