Tengo medidas repetidas en 2 puntos de tiempo en una muestra de personas. Hay 18k personas en el tiempo 1 y 13k en el tiempo 2 (5000 perdidas durante el seguimiento).
Quiero retroceder un resultado Y medido en el tiempo 2 (y el resultado no puede medirse en el tiempo 1) en el conjunto de predictores X medidos en el tiempo 1. Todas las variables tienen algunos datos faltantes. La mayor parte parece relativamente aleatoria, o la falta parece estar bien descrita por los datos observados. Sin embargo, la gran mayoría de las faltas en el resultado Y se debe a la pérdida durante el seguimiento. Usaré la imputación múltiple (R :: ratones), y usaré el conjunto de datos completo para imputar valores para X, pero he recibido 2 consejos contradictorios con respecto a la imputación de Y:
1) Imputar Y de X y V (V = variables auxiliares útiles) en la muestra completa de 18k.
2) No impute Y en individuos perdidos durante el seguimiento (y, por lo tanto, elimínelos de cualquier modelo de regresión posterior).
El primero tiene sentido porque la información es información, entonces, ¿por qué no usarlo todo? Pero esto último también tiene sentido, de una manera más intuitiva: simplemente parece incorrecto imputar el resultado para 5000 personas en función de Y ~ X + V, para luego dar la vuelta y estimar Y ~ X.
¿Cuál es (más) correcto?
Esta pregunta anterior es útil, pero no aborda directamente la falta debido a la pérdida durante el seguimiento (aunque quizás la respuesta sea la misma; no lo sé).