Me parece que su pregunta generalmente aborda diferentes tipos de validación para un modelo predictivo: la validación cruzada tiene algo más que ver con la validez interna , o al menos la etapa de modelado inicial, mientras que establecer vínculos causales en una población más amplia está más relacionado a validez externa. Con eso (y como una actualización siguiendo el comentario agradable de @ Brett), quiero decir que generalmente construimos un modelo a partir de una muestra de trabajo, suponiendo un modelo conceptual hipotético (es decir, especificamos las relaciones entre los predictores y los resultados de interés), e intentamos obtener estimaciones confiables con una tasa de error de clasificación mínima o un error de predicción mínimo. Con suerte, cuanto mejor se desempeñe el modelo, mejor nos permitirá predecir resultados en datos no vistos; aún así, CV no dice nada sobre la "validez" o adecuación de los vínculos causales hipotéticos. Ciertamente podríamos lograr resultados decentes con un modelo en el que algunos efectos de moderación y / o mediación se descuidan o simplemente no se conocen de antemano.
Mi punto es que cualquiera que sea el método que use para validar su modelo (y el método de reserva no es el mejor, pero aún se usa ampliamente en estudios epidemiológicos para aliviar los problemas que surgen de la construcción de modelos paso a paso), usted trabaja con la misma muestra (que suponemos que es representativo de una población más grande). Por el contrario, la generalización de los resultados y los vínculos causales inferidos de esta manera a nuevas muestras o una población plausiblemente relacionada generalmente se realiza mediante estudios de replicación . Esto garantiza que podamos probar de manera segura la capacidad predictiva de nuestro modelo en una "superpoblación" que presenta una gama más amplia de variaciones individuales y puede exhibir otros factores potenciales de interés.
Su modelo puede proporcionar predicciones válidas para su muestra de trabajo, e incluye todos los posibles factores de confusión que pueda pensar; sin embargo, es posible que no funcione tan bien con los datos nuevos, solo porque aparecen otros factores en la ruta causal que no se identificaron al construir el modelo inicial. Esto puede suceder si algunos de los predictores y los vínculos causales inferidos a partir de ellos dependen del centro de ensayo particular donde se reclutaron pacientes, por ejemplo.
En epidemiología genética, muchos estudios de asociación de todo el genoma no se replican simplemente porque estamos tratando de modelar enfermedades complejas con una visión demasiado simplificada sobre las relaciones causales entre los marcadores de ADN y el fenotipo observado, mientras que es muy probable que el gen genético (epistasis), las enfermedades genéticas (pleiotropía), el entorno genético y la subestructura de la población entran en juego, pero véase, por ejemplo , Validar, aumentar y refinar las señales de asociación de todo el genoma(Ioannidis et al., Nature Reviews Genetics, 2009 10). Por lo tanto, podemos construir un modelo de rendimiento para tener en cuenta las variaciones cruzadas observadas entre un conjunto de marcadores genéticos (con un tamaño de efecto muy bajo y disperso) y un patrón multivariado de fenotipos observados (por ejemplo, volumen de materia blanca / gris o actividades localizadas en el cerebro como se observa a través de fMRI, respuestas a la evaluación neuropsicológica o inventario de personalidad), aún así no funcionará como se esperaba en una muestra independiente.
En cuanto a una referencia general sobre este tema, puedo recomendar el capítulo 17 y la Parte III de Modelos de predicción clínica , de EW Steyerberg (Springer, 2009). También me gusta el siguiente artículo de Ioannidis:
Ioannidis, JPA, ¿Por qué los hallazgos de investigación más publicados son falsos? PLoS Med. 2005 2 (8): e124