Explicar el ajuste del modelo, en inglés simple

14

Leyendo sobre métodos y resultados de análisis estadísticos, especialmente en epidemiología, muy a menudo escucho acerca del ajuste o control de los modelos.

¿Cómo explicaría, a un no estadístico, el propósito de eso? ¿Cómo interpretas tus resultados después de controlar ciertas variables?

Un pequeño recorrido en Stata o R, o un puntero a uno en línea, sería una verdadera joya.

regression modeling epidemiology

— radek
fuente

29

Más fácil de explicar a modo de ejemplo:

Imagine estudio encuentra que las personas que vieron la final de la Copa Mundial tuvieron más probabilidades de sufrir un ataque cardíaco durante el partido o en las siguientes 24 horas que aquellos que no la vieron. ¿Debería el gobierno prohibir el fútbol en la televisión? Pero los hombres tienen más probabilidades de ver fútbol que las mujeres, y los hombres también tienen más probabilidades de sufrir un ataque cardíaco que las mujeres. Entonces, la asociación entre mirar fútbol y ataques cardíacos podría explicarse por un tercer factor , como el sexo, que afecta a ambos. (Los sociólogos distinguirían aquí entre género , una construcción cultural que se asocia con la observación de fútbol y el sexo, una categoría biológica que está asociada con la incidencia de ataque cardíaco, pero las dos están claramente correlacionadas, por lo que voy a ignorar esa distinción por simplicidad).

Los estadísticos, y especialmente los epidemiólogos, llaman a este tercer factor un factor de confusión y el fenómeno es confuso . La forma más obvia de eliminar el problema es observar la asociación entre la observación de fútbol y la incidencia de ataque cardíaco en hombres y mujeres por separado, o en la jerga, para estratificar por sexo. Si encontramos que la asociación (si todavía hay una) es similar en ambos sexos, entonces podemos optar por combinar las dos estimaciones de la asociación entre los dos sexos. Luego se dice que la estimación resultante de la asociación entre la observación de fútbol y la incidencia de ataque cardíaco se ajusta o controla por sexo.

Probablemente también desearíamos controlar otros factores de la misma manera. La edad es otra obvia (de hecho, los epidemiólogos estratifican o ajustan / controlan casi todas las asociaciones por edad y sexo). La clase socioeconómica es probablemente otra. Otros pueden ser más complicados, por ejemplo, ¿deberíamos ajustarnos al consumo de cerveza mientras vemos el partido? Quizás sí, si estamos interesados en el efecto del estrés de ver el partido solo; pero tal vez no, si estamos considerando prohibir la transmisión de fútbol de la Copa Mundial y eso también reduciría el consumo de cerveza. Si la variable dada es un factor de confusión o no, depende precisamente de qué pregunta deseamos abordar, y esto puede requerir un pensamiento muy cuidadoso y ser bastante complicado e incluso polémico.

Claramente, entonces, podemos desear ajustar / controlar varios factores, algunos de los cuales pueden medirse en varias categorías (por ejemplo, clase social) mientras que otros pueden ser continuos (por ejemplo, edad). Podríamos tratar con los continuos dividiéndolos en grupos (de edad), convirtiéndolos así en categóricos. Digamos que tenemos 2 sexos, 5 grupos de clase social y 7 grupos de edad. Ahora podemos ver la asociación entre la observación de fútbol y la incidencia de ataque cardíaco en estratos 2 × 5 × 7 = 70. Pero si nuestro estudio es bastante pequeño, por lo que algunos de esos estratos contienen muy pocas personas, vamos a tener problemas con este enfoque. Y en la práctica, es posible que deseemos ajustar una docena o más de variables. El análisis de regresión proporciona una forma alternativa de ajustar / controlar variables que es particularmente útil cuando hay muchas de ellas.con múltiples variables dependientes, a veces conocidas como análisis de regresión multivariable . (Existen diferentes tipos de modelos de regresión según el tipo de variable de resultado: regresión de mínimos cuadrados, regresión logística, regresión de riesgos proporcionales (Cox) ...). En los estudios observacionales, a diferencia de los experimentos, casi siempre queremos ajustar para muchos factores de confusión potenciales, por lo que en la práctica el ajuste / control de los factores de confusión a menudo se realiza mediante análisis de regresión, aunque también hay otras alternativas, como la estandarización, la ponderación, la propensión puntuación coincidente ...

— una parada
fuente

3

+1 (aunque merece al menos +3): muy completo y completo. Me dejó todo el asunto mucho más claro. ¡Gracias!

— radek

"Una forma alternativa de ajustar / controlar las variables que es particularmente útil cuando hay muchas de ellas es el análisis de regresión con múltiples variables dependientes, a veces conocido como análisis de regresión multivariable". ¿se supone que eso es "independiente" o estoy malentendido? y es la jerga más común para esto, "regresión múltiple"? (Sé que es discutible)

— Richard DiSalvo

10

Onestop lo explicó bastante bien, solo daré un ejemplo R simple con datos inventados. Digamos que x es peso e y es altura, y queremos saber si hay una diferencia entre hombres y mujeres:

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

Puede ver que sin controlar el peso (en anova (lm1)) hay muy poca diferencia entre los sexos, pero cuando el peso se incluye como una covariable (controlada en lm2), la diferencia se hace más evidente.

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)

— Matt Albrecht
fuente