Creo que la respuesta de Jeromy es suficiente si está examinando dos estudios experimentales o un metanálisis real. Pero a menudo nos enfrentamos a examinar dos estudios no experimentales, y tenemos la tarea de evaluar la validez de esos dos hallazgos dispares.
Como sugiere la lista de preguntas de Cyrus , el tema en sí no es susceptible de una respuesta breve, y los libros enteros están esencialmente destinados a abordar dicha pregunta. Para cualquier persona interesada en realizar investigaciones sobre datos no experimentales, le recomiendo que lea
Diseños experimentales y cuasiexperimentales para inferencia causal generalizada por William R. Shadish, Thomas D. Cook, Donald Thomas Campbell (También he escuchado que las versiones anteriores de este texto son igual de buenas).
Varios elementos a los que Jeromy se refirió (tamaños de muestra más grandes y mayor rigor metodológico), y todo lo que Cyrus menciona se consideraría lo que Campbell y Cook denominan "Validez interna". Estos incluyen aspectos del diseño de la investigación y los métodos estadísticos utilizados para evaluar la relación entre X e Y. En particular, como críticos, nos preocupan los aspectos que podrían sesgar los resultados y disminuir la confiabilidad de los hallazgos. Como este es un foro dedicado al análisis estadístico, muchas de las respuestas se centran en métodos estadísticos para garantizar estimaciones imparciales de cualquier relación que esté evaluando. Pero hay otros aspectos del diseño de la investigación no relacionados con el análisis estadístico que disminuyen la validez de los hallazgos, sin importar qué tan riguroso sea el análisis estadístico (como la mención de Cyrus de varios aspectos de la fidelidad del experimento puede abordarse pero no resolverse con métodos estadísticos, y si ocurren siempre disminuirá la validez de los resultados de los estudios). Hay muchos otros aspectos de la validez interna que se vuelven cruciales para evaluar al comparar resultados de estudios no experimentales que no se mencionan aquí, y aspectos de los diseños de investigación que pueden distinguir la confiabilidad de los hallazgos. No creo que sea muy apropiado entrar en demasiados detalles aquí,
Campbell y Cook también se refieren a la "validez externa" de los estudios. Este aspecto del diseño de la investigación es a menudo mucho más pequeño y no merece tanta atención como la validez interna. La validez externa se ocupa esencialmente de la generalización de los hallazgos, y diría que los legos a menudo pueden evaluar la validez externa razonablemente bien, siempre y cuando estén familiarizados con el tema. Larga historia corta leída el libro de Shadish, Cook y Campbell.