¿Cómo puedo agrupar medias posteriores e intervalos creíbles después de una imputación múltiple?


20

He utilizado la imputación múltiple para obtener una serie de conjuntos de datos completos.

He utilizado métodos bayesianos en cada uno de los conjuntos de datos completos para obtener distribuciones posteriores para un parámetro (un efecto aleatorio).

¿Cómo puedo combinar / agrupar los resultados para este parámetro?


Más contexto:

Mi modelo es jerárquico en el sentido de alumnos individuales (una observación por alumno) agrupados en las escuelas. He realizado múltiples imputaciones (usando MICEen R) en mis datos donde incluí schoolcomo uno de los predictores para los datos faltantes, para tratar de incorporar la jerarquía de datos en las imputaciones.

He ajustado un modelo de pendiente aleatorio simple a cada uno de los conjuntos de datos completos (usando MCMCglmmen R). El resultado es binario.

Descubrí que las densidades posteriores de la variación aleatoria de la pendiente se "comportan bien" en el sentido de que se parecen a esto: ingrese la descripción de la imagen aquí

¿Cómo puedo combinar / agrupar las medias posteriores y los intervalos creíbles de cada conjunto de datos imputado, para este efecto aleatorio?


Actualización1 :

Por lo que entiendo hasta ahora, podría aplicar las reglas de Rubin a la media posterior, para dar una media posterior imputada de manera múltiple: ¿hay algún problema al hacer esto? Pero no tengo idea de cómo puedo combinar los intervalos de 95% creíbles. Además, dado que tengo una muestra de densidad posterior real para cada imputación, ¿podría combinarlas de alguna manera?


Actualización2 :

Según la sugerencia de @ cyan en los comentarios, me gusta mucho la idea de simplemente combinar las muestras de las distribuciones posteriores obtenidas de cada conjunto de datos completo de la imputación múltiple. Sin embargo, me gustaría saber la justificación teórica para hacer esto.


Si la falta de un dato dado es independiente del valor de resultado asociado, es correcto simplemente tirar todas las muestras posteriores de los diferentes conjuntos de datos imputados y tomar la media y el 95% de intervalos creíbles de las muestras posteriores combinadas.
Cian

@Cyan, ¿es lo mismo que decir que el mecanismo de falta es "falta al azar" o "falta completamente al azar" pero no "falta no al azar" (los supuestos habituales que aprendí para realizar MI)? ¿Conoces alguna referencia en la que este "lanzamiento conjunto" se justifique formalmente?
Joe King

La imputación múltiple es un procedimiento bayesiano en su esencia. Si usa métodos bayesianos para la estimación (MCMC y similares), simplemente debe lanzar la simulación de los datos faltantes como un paso de muestreo MCMC adicional para un modelo completamente bayesiano, y no se molestará en tratar de encontrar una interfaz entre estos enfoques.
StasK

@StasK gracias por tu comentario. Intentaré usar ese enfoque en mi próximo proyecto, pero desafortunadamente no tengo tiempo para cambiar el modelo ahora. Ya ejecuté las imputaciones y el modelo bayesiano en cada conjunto de datos imputado; tardó casi 3 semanas en ejecutarse. ¿Crees que no es válido para mí combinar las muestras posteriores?
Joe King el

Las reglas de Rubin se aplican solo a los momentos. No sé si puede aplicarlos a una distribución de manera significativa. Tal vez tal vez no. Bien puede ser que lo mejor que puede hacer es decir que la ejecución de MCMC produjo las estimaciones puntuales (medias posteriores) y los errores estándar (variaciones posteriores), y luego usar las reglas de Rubin para obtener las estimaciones generales de puntos y variaciones. Usted sabe cuán trágicas pueden ser las pérdidas de dfs en el modelo jerárquico y lo peligroso que es agrupar los datos: si tiene 5 conjuntos de datos completos imputados y muestras MCMC de 1 M en cada uno, significa que tiene 5 grupos, no MCMC iid 5M puntos.
StasK

Respuestas:


4

Con los posteriores particularmente bien comportados que pueden describirse adecuadamente mediante una descripción paramétrica de una distribución, es posible que pueda simplemente tomar la media y la varianza que mejor describe su posterior e ir desde allí. Sospecho que esto puede ser adecuado en muchas circunstancias en las que no se obtienen distribuciones posteriores realmente extrañas.


0

Si usa stata, hay un procedimiento llamado "mim" que agrupa los datos después de la imputación usando modelos de efectos mixtos. No sé si está disponible en R.


Gracias. Puede que no lo haya explicado bien: ya tengo muestras posteriores de varios conjuntos de datos imputados, y quiero saber si simplemente puedo combinarlos y luego formar un intervalo creíble imputado multiplicado.
Joe King
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.