En un artículo reciente, Norton et al. (2018) declara que
No se pueden comparar diferentes razones de probabilidad del mismo estudio cuando los modelos estadísticos que dan como resultado estimaciones de razón de probabilidades tienen diferentes variables explicativas porque cada modelo tiene un factor de escala arbitrario diferente. Tampoco se puede comparar la magnitud de la razón de probabilidades de un estudio con la magnitud de la razón de probabilidades de otro estudio, porque diferentes muestras y diferentes especificaciones del modelo tendrán diferentes factores de escala arbitrarios. Otra implicación es que las magnitudes de las odds ratios de una asociación dada en múltiples estudios no pueden sintetizarse en un metanálisis.
Una pequeña simulación ilustra esto (el código R está al final de la pregunta). Supongamos que el modelo verdadero es:
Imagine además que los mismos datos generados por el modelo anterior son analizados por cuatro investigadores diferentes utilizando una regresión logística. El investigador 1 solo incluye como covariable, el investigador 2 incluye tanto como y así sucesivamente. Los estimados simulados promedio de la razón de probabilidades para de los cuatro investigadores fueron:
res_1 res_2 res_3 res_4
1.679768 1.776200 2.002157 2.004077
Es evidente que solo los investigadores 3 y 4 obtienen la razón de probabilidades correcta de aproximadamente mientras que los investigadores 1 y 2 no. Esto no sucede en la regresión lineal, que se puede mostrar fácilmente mediante una simulación similar (no se muestra aquí). Debo confesar que este resultado fue bastante sorprendente para mí, aunque este problema parece ser bien conocido . Hernán y col. (2011) llaman a esto una "rareza matemática" en lugar de un sesgo.[ 2 ] [ 3 ]
Mis preguntas:
- Si las razones de probabilidad son básicamente incomparables entre los estudios y modelos, ¿cómo podemos combinar los resultados de diferentes estudios para resultados binarios?
- Lo que se puede decir de los innumerables metaanálisis que tenía combinan los odds ratios de diferentes estudios en los que cada estudio posiblemente ajustada por un conjunto diferente de covariables? ¿Son esencialmente inútiles?
Referencias
[1]: Norton EC, Dowd BE, Maciejewski ML (2018): Odds Ratios - Mejores prácticas y usos actuales. JAMA 320 (1): 84-85.
[2]: Norton EC, Dowd BE (2017): Log Odds and the Interpretation of Logit Models. Health Serv Res. 53 (2): 859-878.
[3]: Hernán MA, Clayton D, Keiding N (2011): la paradoja de Simpson desvelada. Int J Epidemiol 40: 780-785.
Divulgar
La pregunta (incluido el código R) es una versión modificada de una pregunta planteada por el usuario timdisher sobre métodos de datos .
Código R
set.seed(142857)
n_sims <- 1000 # number of simulations
out <- data.frame(
treat_1 = rep(NA, n_sims)
, treat_2 = rep(NA, n_sims)
, treat_3 = rep(NA, n_sims)
, treat_4 = rep(NA, n_sims)
)
n <- 1000 # number of observations in each simulation
coef_sim <- "x1" # Coefficient of interest
# Coefficients (log-odds)
b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0
for(i in 1:n_sims){
x1 <- rbinom(n, 1, 0.5)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
z <- b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4
pr <- 1/(1 + exp(-z))
y <- rbinom(n, 1, pr)
df <- data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
model1 <- glm(y ~ x1, data = df, family = "binomial")
model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")
out$treat_1[i] <- model1$coefficients[coef_sim]
out$treat_2[i] <- model2$coefficients[coef_sim]
out$treat_3[i] <- model3$coefficients[coef_sim]
out$treat_4[i] <- model4$coefficients[coef_sim]
}
# Coefficients
colMeans(out)
exp(colMeans(out)) # Odds ratios