¿Por qué el factor de confusión debe estar relacionado causalmente con el resultado? ¿Sería suficiente que el factor de confusión se asocie con el resultado?
No, no es suficiente.
Comencemos con el caso en el que puede tener una variable asociada tanto con el resultado como con el tratamiento, pero controlarlo sesgaría su estimación.
Por ejemplo, considere el siguiente gráfico causal, tomado de Pearl , donde es un colisionador previo al tratamiento:Z
En este caso, no hay confusión, puede estimar el efecto de X en Y directamente.
Sin embargo, tenga en cuenta que Z está asociado tanto con el tratamiento como con el resultado. Pero todavía no es un factor de confusión. De hecho, si controla por Z en este caso, sesgaría su estimación. Esta situación se llama sesgo M (debido a la estructura del gráfico).
XY
Aquí, nuevamente, Z está asociado con X e Y, pero no es un cofundador. No debes controlarlo.
Ahora, vale la pena notar que incluso si una variable está causalmente relacionada con el resultado , tampoco es necesariamente un factor de confusión.
Tomemos el caso de los mediadores, en el gráfico simple a continuación:
Si desea medir el efecto total de D en Y, no debe controlar las cosas que median el efecto, en este caso M. Es decir, M está causalmente relacionado con Y, pero no es un factor de confusión con respecto a efecto total de D sobre Y tampoco.
Sin embargo, tenga en cuenta que definir la confusión es mucho más fácil que definir qué es una confusión . Para una discusión más estricta de la definición de confusor , es posible que desee leer este documento de VanderWeele y Shpitser.
¿Por qué es este el caso? Porque el concepto principal aquí es el de la confusión en sí, no el de confusión. Para su pregunta de investigación, debe preguntarse "¿cómo puedo eliminar la confusión?" en lugar de "¿es esta variable un factor de confusión?".
Y como nota final, vale la pena mencionar que estos conceptos erróneos todavía están muy extendidos. Solo para ilustrar, tome esta cita de un artículo de 2016 :
La inferencia causal en ausencia de un experimento aleatorio o un diseño cuasiexperimental fuerte requiere un acondicionamiento apropiado de todas las variables de pretratamiento que predicen tanto el tratamiento como el resultado, también conocidas como covariables de confusión.
Como hemos mostrado en los ejemplos anteriores, esto es incorrecto. Los factores de confusión no son "todas las variables de pretratamiento que predicen tanto el tratamiento como el resultado". El control de todos ellos podría no ser necesario para eliminar la confusión o incluso podría sesgar los resultados. Pearl tiene una muy buena visión general sobre la confusión aquí.