Me pregunto si alguien podría proporcionar una idea de por qué es mejor una imputación de datos faltantes que simplemente construir diferentes modelos para casos con datos faltantes. Especialmente en el caso de modelos lineales [generalizados] (tal vez pueda ver en casos no lineales que las cosas son diferentes)
Supongamos que tenemos el modelo lineal básico:
Pero nuestro conjunto de datos contiene algunos registros con faltante. En el conjunto de datos de predicción donde se utilizará el modelo, también habrá casos de falta de . Parece que hay dos formas de proceder:X 3
Modelos múltiples
Podríamos dividir los datos en y no y construir un modelo separado para cada uno. Si suponemos que está estrechamente relacionado con entonces el modelo de datos que falta puede sobrepeso para obtener la mejor predicción de dos predictores. Además, si los casos de datos faltantes son ligeramente diferentes (debido al mecanismo de datos faltantes), puede incorporar esa diferencia. En el lado negativo, los dos modelos se ajustan solo a una parte de los datos y no se "ayudan" entre sí, por lo que el ajuste puede ser deficiente en conjuntos de datos limitados.X 3 X 3 X 2 X 2
Imputación
La imputación múltiple de regresión primero rellenaría al construir un modelo basado en y y luego realizar un muestreo aleatorio para mantener el ruido en los datos imputados. Dado que esto es nuevamente dos modelos, ¿esto no solo terminará siendo el mismo que el método de modelo múltiple anterior? Si es capaz de superar, ¿de dónde viene la ganancia? ¿Es solo que el ajuste para se realiza en todo el conjunto?X 1 X 2 X 1
EDITAR:
Si bien la respuesta de Steffan hasta ahora explica que ajustar el modelo de caso completo en los datos imputados superará al ajuste en los datos completos, y parece obvio que lo contrario es cierto, todavía hay algunos malentendidos sobre la predicción de datos faltantes.
Si tengo el modelo anterior, incluso si se ajusta perfectamente, en general será un modelo de pronóstico terrible si simplemente pongo cero al predecir. Imagine, por ejemplo, que entonces es completamente inútil ( ) cuando está presente, pero aún sería útil en ausencia de .X 2 β 2 = 0 X 3 X 3
La pregunta clave que no entiendo es: ¿ es mejor construir dos modelos, uno usando y otro usando , o es mejor construir un solo modelo (completo) y usar imputación en los conjuntos de datos de pronóstico, ¿o son lo mismo?
Con la respuesta de Steffan, parece que es mejor construir el modelo de caso completo en un conjunto de entrenamiento imputado, y por el contrario, probablemente sea mejor construir el modelo de datos que falta en el conjunto de datos completo con descartado. ¿Es este segundo paso diferente de usar un modelo de imputación en los datos de pronóstico?