¿Cuál es la diferencia entre controlar una variable en un modelo de regresión y controlar una variable en el diseño de su estudio?

Me imagino que controlar una variable en el diseño de su estudio es más efectivo para reducir el error que controlarlo post-hoc en su modelo de regresión.

¿Le importaría a alguien explicar formalmente cómo difieren estas dos instancias de "control"? ¿Cuán comparativamente efectivos son para reducir el error y generar predicciones más precisas?

regression experiment-design controlling-for-a-variable

— mrt
fuente

Al "controlar una variable en el diseño de su estudio", supongo que se refiere a hacer que una variable sea constante en todas las unidades de estudio o manipular una variable para que el nivel de esa variable se establezca de forma independiente para cada unidad de estudio. Es decir, controlar una variable en el diseño de su estudio significa que está llevando a cabo un verdadero experimento . El beneficio de esto es que puede ayudar a inferir causalidad .

En teoría, controlar una variable en su modelo de regresión también puede ayudar a inferir causalidad. Sin embargo, este es solo el caso si controla todas las variables que tienen una conexión causal directa con la respuesta. Si omite dicha variable (tal vez no sabía incluirla), y está correlacionada con cualquiera de las otras variables, entonces sus inferencias causales serán parciales e incorrectas. En la práctica, no conocemos todas las variables relevantes, por lo que el control estadístico es un esfuerzo bastante arriesgado que se basa en grandes suposiciones que no puede verificar.

Sin embargo, su pregunta se refiere a "reducir el error y generar predicciones más precisas", no inferir causalidad. Este es un problema diferente. Si hiciera constante una variable dada a través del diseño de su estudio, se eliminaría toda la variabilidad en la respuesta debida a esa variable. Por otro lado, si simplemente controla una variable, está estimando su efecto que está sujeto a un error de muestreo como mínimo. En otras palabras, el control estadístico no sería tan bueno, a la larga, para reducir la varianza residual en su muestra.

Pero si está interesado en reducir el error y obtener predicciones más precisas, presumiblemente le interesan principalmente las propiedades fuera de la muestra, no la precisión dentro de su muestra. Y ahí está el problema. Cuando controlas una variable al manipularla de alguna forma (manteniéndola constante, etc.), creas una situación que es más artificial que la observación natural original. Es decir, los experimentos tienden a tener menos validez externa / generalización que los estudios observacionales.

En caso de que no esté claro, un ejemplo de un verdadero experimento que mantiene algo constante podría ser evaluar un tratamiento en un modelo de ratón usando ratones endogámicos que son genéticamente idénticos. Por otro lado, un ejemplo de control de una variable podría ser la representación de la historia familiar de la enfermedad mediante un código ficticio e incluir esa variable en un modelo de regresión múltiple (cf. ¿Cómo exactamente se “controla para otras variables”? Y ¿Cómo? puede añadir un segundo IV que la primera IV significativa? ).

— gung - Restablece a Monica
fuente

Grandes explicaciones! @gung

— Aaron Zeng