La respuesta simple es ponderar. Es decir, puede usar pesos para estandarizar grupos en el grupo "aceptado" para la población de interés. El problema que surge al usar tales pesos en un análisis agrupado que usa tanto la primera como la segunda fase de 2 años es que los pesos estimados de la población y los parámetros ahora dependen. El enfoque de pseudolikelihood se usa típicamente (en este caso, sería algún tipo de probabilidad pseudo-parcial) donde se ignora la dependencia entre los pesos de las muestras y las estimaciones de los parámetros. Sin embargo, en muchas circunstancias prácticas (y esta no es diferente), es necesario tener en cuenta esta dependencia. La cuestión de crear un estimador eficiente de las razones de riesgo es difícil, y que yo sepa, no tiene límites.
Estimación mejorada de Horvitz-Thompson de los parámetros del modelo a partir de muestras estratificadas de dos fases: aplicaciones en epidemiología .
El artículo analiza los métodos de encuesta, generalmente aplicados en regresión logística, sin embargo, también puede ponderar los datos de supervivencia. Algunas consideraciones importantes que no mencionó es si está interesado en crear una predicción que se aplique a toda la población, o a la población "calificada" según las estimaciones de 2 años, o la población "calificada" según el resultado modelo. Tampoco ha mencionado exactamente cómo se crea tal modelo de "predicción" a partir de un modelo de Cox, ya que los valores ajustados de un modelo de Cox no pueden interpretarse como riesgos. Supongo que estima las razones de riesgo, luego obtiene una estimación suavizada de la función de riesgo de referencia.