Usted anotó correctamente el estimador agrupado:
U¯=1m∑i=1mUi
Donde representa los resultados analíticos del -ésimo conjunto de datos imputado. Normalmente, los resultados analíticos tienen una distribución aproximada normal de la cual sacamos inferencia o creamos límites de confianza. Esto se realiza principalmente utilizando el valor medio ( ) y su error estándar. Las pruebas T, las regresiones lineales, las regresiones logísticas y, básicamente, la mayoría de los análisis se pueden resumir adecuadamente en términos de ese valor y su error estándar .UiiUiUise(Ui)
Las Reglas de Rubin usan la ley de la varianza total para escribir la varianza como la suma de una varianza de imputación entre y dentro de:
var(U¯)=E[var(U¯|Ui)]+var(E[U¯|Ui])
El primer término es la varianza interna de tal manera que donde es la varianza del resultado del análisis del -ésimo conjunto de datos completo o imputado. El último término es la varianza entre imputaciones: . Nunca he entendido bien la corrección del DF aquí, pero este es básicamente el enfoque aceptado.E[var(U¯|Ui)=1m∑mi=1ViViivar(E[U¯|Ui])=M+1M−1∑mi=1(Ui−U¯)2
De todos modos, dado que el número recomendado de imputaciones es pequeño (Rubin sugiere tan solo 5), generalmente es posible calcular este número ajustando a mano cada análisis. Un ejemplo a mano se enumera a continuación:
require(mice)
set.seed(123)
nhimp <- mice(nhanes)
sapply(1:5, function(i) {
fit <- lm(chl ~ bmi, data=complete(nhimp, i))
print(c('coef'=coef(fit)[2], 'var'=vcov(fit)[2, 2]))
})
Da el siguiente resultado:
coef.bmi var
2.123417 4.542842
3.295818 3.801829
2.866338 3.034773
1.994418 4.124130
3.153911 3.531536
Entonces, la varianza interna es el promedio de las variaciones de estimación puntual específica de imputación: 3.8 (promedio de la segunda columna). La varianza intermedia es 0.35 varianza de la primera columna). Usando la corrección DF obtenemos la varianza 4.23. Esto concuerda con el pool
comando dado en el mice
paquete.
> fit <- with(data=nhimp,exp=lm(chl~bmi))
> summary(pool(fit))
est se t df Pr(>|t|) lo 95 hi 95 nmis fmi lambda
(Intercept) 119.03466 54.716451 2.175482 19.12944 0.04233303 4.564233 233.505080 NA 0.1580941 0.07444487
bmi 2.68678 2.057294 1.305978 18.21792 0.20781073 -1.631731 7.005291 9 0.1853028 0.10051760
que muestra el SE = 2.057 para el coeficiente del modelo, (Varianza = SE ** 2 = 4.23).
No veo cómo aumentar el número de conjuntos de datos imputados crea un problema en particular. Si no puede proporcionar un ejemplo del error, no sé cómo ser más útil. Pero la combinación manual es segura para acomodar una variedad de estrategias de modelado.
Este artículo analiza otras formas en que la ley de la varianza total puede derivar otras estimaciones de la varianza de la estimación agrupada. En particular, los autores señalan (correctamente) que la suposición necesaria para las Reglas de Rubin no es la normalidad de las estimaciones puntuales sino algo llamado simpatía. Normalidad WRT, la mayoría de las estimaciones puntuales que provienen de los modelos de regresión tienen una convergencia rápida bajo el teorema del límite central, y el bootstrap puede mostrarle esto.