Tengo un conjunto de datos sobre ensayos agrícolas. Mi variable de respuesta es una relación de respuesta: log (tratamiento / control). Estoy interesado en lo que media la diferencia, por lo que estoy ejecutando meta-regresiones RE (sin ponderar, porque parece bastante claro que el tamaño del efecto no está correlacionado con la varianza de las estimaciones).
Cada estudio informa el rendimiento de grano, el rendimiento de biomasa o ambos. No puedo imputar el rendimiento de grano de los estudios que informan solo el rendimiento de biomasa, porque no todas las plantas estudiadas fueron útiles para el grano (por ejemplo, se incluye la caña de azúcar). Pero cada planta que producía grano también tenía biomasa.
Para las covariables faltantes, he estado usando la imputación de regresión iterativa (siguiendo el capítulo del libro de texto de Andrew Gelman). Parece dar resultados razonables, y todo el proceso es generalmente intuitivo. Básicamente predigo valores perdidos, y uso esos valores predichos para predecir valores perdidos, y recorro cada variable hasta que cada variable converge aproximadamente (en distribución).
¿Hay alguna razón por la que no pueda usar el mismo proceso para imputar datos de resultados faltantes? Probablemente pueda formar un modelo de imputación relativamente informativo para la relación de respuesta de biomasa dada la relación de respuesta de grano, el tipo de cultivo y otras covariables que tengo. Luego promediaría los coeficientes y los VCV, y agregaría la corrección MI según la práctica estándar.
Pero, ¿qué miden estos coeficientes cuando se imputan los resultados mismos? ¿La interpretación de los coeficientes es diferente del MI estándar para las covariables? Pensando en ello, no puedo convencerme de que esto no funciona, pero no estoy realmente seguro. Pensamientos y sugerencias para leer material son bienvenidos.