Imputación de una variable censurada

Tengo un conjunto de datos médicos con aproximadamente 200 variables. Una de las variables es un marcador biológico (concentración de una enzima particular). Su distribución es correcta, y el problema es que los valores por encima de cierto nivel están censurados / cortados en ese nivel. Entonces, mientras que la media de la variable es de alrededor de 10, cualquier valor mayor que 50 se registra como 50.

Me gustaría imputar valores continuos para esos valores censurados. Actualmente estoy usando la imputación múltiple con el paquete de ratones en R, aunque tengo otros sistemas disponibles y estoy abierto a otros enfoques. Un pensamiento que tuve fue recodificar todos esos valores censurados que faltaban y luego ejecutar las imputaciones. Si alguno de los valores imputados que originalmente fueron censurados está por debajo del límite, entonces se les asignará el valor límite.

Me gustaría saber opiniones sobre esto, y / o cualquier otro método mejor para lidiar con esto.

r epidemiology data-imputation censoring

— Robert Long
fuente

¿Qué papel jugará ese biomarcador en análisis posteriores? Por ejemplo, ¿será una variable explicativa, una covariable o una variable dependiente en una regresión? Es posible que utilice un método que no requiera la imputación de valores. Debería favorecer dichos métodos, porque de lo contrario está haciendo un WAG sobre la forma de la cola derecha censurada, que, debido a la asimetría, podría contener algunos valores influyentes en los análisis.

— whuber

@whuber, el biomarcador es una variable explicativa. La práctica normal en este campo es discretizarlo como 0-1, 1-10, 10+ o, a veces, solo 0-1 y 1+ (es decir, elevado o no elevado). Tuve la idea de incluirlo como una variable explicativa continua. Aunque el conjunto de datos tiene 200 variables, la orientación clínica y la experiencia previa sugieren utilizar 10 de estos en el modelo final, por lo tanto, estaba pensando en imputar los valores> 50 utilizando algunas de las otras variables.

— Robert Long

Cualquier método de imputación, incluida la imputación múltiple, es una toma en la oscuridad si no puede tomar en cuenta cómo se distribuyen los datos por encima de 50. Como tiene 200 variables, ¿alguna de ellas está correlacionada con el biomarcador? Si pudiera ajustar una regresión para el biomarcador en función de las covariables, podría usar ese modelo para predecir los valores de los truncados. Podría aplicar un error a la predicción en función de la varianza residual en el modelo para generar múltiples imputaciones de esa manera. Sería más sensato. Por supuesto, esto supone que puede encontrar un modelo válido y que los residuos tienen cero media y varianza constante. Solo se ajustarían los valores de biomarcadores no truncados para construir el modelo.

— Michael R. Chernick
fuente