En un estudio longitudinal, ¿debo imputar el resultado Y, medido en el tiempo 2, para las personas que se perdieron durante el seguimiento?

10

Tengo medidas repetidas en 2 puntos de tiempo en una muestra de personas. Hay 18k personas en el tiempo 1 y 13k en el tiempo 2 (5000 perdidas durante el seguimiento).

Quiero retroceder un resultado Y medido en el tiempo 2 (y el resultado no puede medirse en el tiempo 1) en el conjunto de predictores X medidos en el tiempo 1. Todas las variables tienen algunos datos faltantes. La mayor parte parece relativamente aleatoria, o la falta parece estar bien descrita por los datos observados. Sin embargo, la gran mayoría de las faltas en el resultado Y se debe a la pérdida durante el seguimiento. Usaré la imputación múltiple (R :: ratones), y usaré el conjunto de datos completo para imputar valores para X, pero he recibido 2 consejos contradictorios con respecto a la imputación de Y:

1) Imputar Y de X y V (V = variables auxiliares útiles) en la muestra completa de 18k.

2) No impute Y en individuos perdidos durante el seguimiento (y, por lo tanto, elimínelos de cualquier modelo de regresión posterior).

El primero tiene sentido porque la información es información, entonces, ¿por qué no usarlo todo? Pero esto último también tiene sentido, de una manera más intuitiva: simplemente parece incorrecto imputar el resultado para 5000 personas en función de Y ~ X + V, para luego dar la vuelta y estimar Y ~ X.

¿Cuál es (más) correcto?

Esta pregunta anterior es útil, pero no aborda directamente la falta debido a la pérdida durante el seguimiento (aunque quizás la respuesta sea la misma; no lo sé).

Imputación múltiple para variables de resultado

panel-data multiple-imputation

— DL Dahly
fuente

Esto me parece contradictorio. ¿Puede explicarlo ?: "La mayor parte parece relativamente aleatoria, o la falta parece estar bien descrita por los datos observados".

— rolando2

1

La imputación múltiple y la mayoría de los otros procedimientos de imputación requieren que sus datos falten al azar (MAR). Sería necesario comprender el mecanismo de desgaste en su estudio. Sin embargo, sospecho que en sus estudios de seguimiento, sus valores faltantes probablemente no sean MAR o MCAR.

— EstadísticasEstudiante

2

Creo que este es un caso de instrumentación. Quieres una X faltante, no una Y faltante.

Y~X

Pero X falta con frecuencia o está mal medido.

X~Z and Z does not impact Y- except through X.

Entonces puedes ejecutar:

 X~Z
 Y~Predicted(X)

Y requieren algunos ajustes para los errores estándar.

También es posible que desee ver el procedimiento de 2 pasos de Heckmann si tiene muchas muestras de desgaste. http://en.wikipedia.org/wiki/Heckman_correction

— Regresar adelante
fuente

2

Yo diría que ninguno de los dos es el más apropiado.

$X$ $Y$

Eliminar todos los datos que faltan de sus datos hace que sus parámetros se sesguen (si los datos no son MCAR, consulte más arriba) y reduce significativamente la precisión de sus estimaciones. Este es un análisis de "caso completo" y no es aconsejable.

$Y$

— Matt Brems
fuente