La imputación múltiple es bastante sencilla cuando tiene un modelo lineal a priori que desea estimar. Sin embargo, las cosas parecen ser un poco más complicadas cuando realmente desea hacer una selección de modelo (por ejemplo, encontrar el "mejor" conjunto de variables predictoras de un conjunto más grande de variables candidatas; estoy pensando específicamente en LASSO y polinomios fraccionales usando R).
Una idea sería ajustar el modelo en los datos originales con valores faltantes, y luego volver a estimar este modelo en conjuntos de datos MI y combinar estimaciones como lo haría normalmente. Sin embargo, esto parece problemático ya que espera un sesgo (¿o por qué el MI en primer lugar?), Lo que podría llevar a seleccionar un modelo "incorrecto" desde el principio.
Otra idea sería pasar por el proceso de selección de modelo que esté utilizando en cada conjunto de datos MI, pero ¿cómo combinaría los resultados si incluyen diferentes conjuntos de variables?
Pensé que tenía que apilar un conjunto de conjuntos de datos de MI y analizarlos como un conjunto de datos grande que luego usaría para ajustar un modelo único, "mejor", e incluir un efecto aleatorio para tener en cuenta el hecho de que está utilizando medidas repetidas para cada observación
¿Suena esto razonable? O tal vez increíblemente ingenuo? Cualquier sugerencia sobre este tema (selección de modelo con imputación múltiple) sería muy apreciada.