A mi entender, hay dos problemas básicos con los estudios observacionales que "controlan" una serie de variables independientes. 1) Tiene el problema de que faltan variables explicativas y, por lo tanto, la especificación errónea del modelo. 2) Tiene el problema de múltiples variables independientes correlacionadas, un problema que no existe en experimentos (bien diseñados), y el hecho de que los coeficientes de regresión y las pruebas ANCOVA de covariables se basan en parciales, lo que dificulta su interpretación. El primero es intrínseco a la naturaleza de la investigación observacional y se aborda en el contexto científico y el proceso de elaboración competitiva. Este último es un tema de educación y se basa en una comprensión clara de los modelos de regresión y ANCOVA y exactamente lo que representan esos coeficientes.
Con respecto al primer tema, es bastante fácil demostrar que si todas las influencias en alguna variable dependiente son conocidas e incluidas en un modelo, los métodos estadísticos de control son efectivos y producen buenas predicciones y estimaciones de efectos para variables individuales. El problema en las "ciencias blandas" es que rara vez se incluyen o se conocen todas las influencias relevantes y, por lo tanto, los modelos están poco especificados y son difíciles de interpretar. Sin embargo, existen muchos problemas valiosos en estos dominios. Las respuestas simplemente carecen de certeza. La belleza del proceso científico es que es autocorrectivo y los modelos son cuestionados, elaborados y refinados. La alternativa es sugerir que no podemos investigar estos problemas científicamente cuando no podemos diseñar experimentos.
El segundo problema es técnico en la naturaleza de ANCOVA y los modelos de regresión. Los analistas deben tener claro qué representan estos coeficientes y pruebas. Las correlaciones entre las variables independientes influyen en los coeficientes de regresión y las pruebas ANCOVA. Son pruebas de parciales. Estos modelos sacan la varianza en una variable independiente dada y la variable dependiente que está asociada con todas las otras variables en el modelo y luego examinan la relación en esos residuos. Como resultado, los coeficientes y las pruebas individuales son muy difíciles de interpretar fuera del contexto de una comprensión conceptual clara de todo el conjunto de variables incluidas y sus interrelaciones. Esto, sin embargo, NO produce problemas para la predicción, solo tenga cuidado al interpretar pruebas y coeficientes específicos.
Una nota al margen: El último tema está relacionado con un problema discutido previamente en este foro sobre la inversión de los signos de regresión, por ejemplo, de negativo a positivo, cuando se introducen otros predictores en un modelo. En presencia de predictores correlacionados y sin una comprensión clara de las relaciones múltiples y complejas entre todo el conjunto de predictores, no hay razón para ESPERAR un coeficiente de regresión (por naturaleza parcial) para tener un signo particular. Cuando existe una teoría sólida y una comprensión clara de esas interrelaciones, tales "reversiones" de signos pueden ser esclarecedoras y teóricamente útiles. Sin embargo, dada la complejidad de muchos problemas de ciencias sociales, no sería común una comprensión suficiente, esperaría.
Descargo de responsabilidad: soy un sociólogo y analista de políticas públicas por capacitación.