Preguntas de imputación múltiple para regresión múltiple en SPSS

9

Actualmente estoy ejecutando un modelo de regresión múltiple utilizando datos imputados y tengo algunas preguntas.

Antecedentes:

Uso de SPSS 18. Mis datos parecen ser MAR. La eliminación en lista de casos me deja con solo 92 casos, la imputación múltiple deja 153 casos para el análisis. Todos los supuestos cumplidos: un registro variable transformado. 9 IV's 5 - 5 categóricos, 3 escalas, 1 intervalo. Escala DV. Usando el método enter de regresión múltiple estándar.

Mi DV es la diferencia de puntajes entre una medida de puntaje anterior y posterior, a estas dos variables les faltan varios casos: ¿debo imputar los valores faltantes para cada uno de ellos y luego calcular la diferencia entre ellos para calcular mi DV? (¿cómo hago para hacer esto?) o ¿puedo simplemente imputar datos para mi DV? ¿Cuál es el enfoque más apropiado?
¿Debo ejecutar imputaciones en datos transformados o datos no transformados sesgados?
¿Debo ingresar todas las variables en el proceso de imputación, incluso si no faltan datos, o debería simplemente imputar datos para las variables que faltan más del 10% de los casos?

He ejecutado la regresión en los casos eliminados en listas y mi IV representa muy poca variación en mi DV, luego he ejecutado la regresión en un archivo completo después de una imputación múltiple. Los resultados son muy similares, ya que mis 9 IV todavía predecir solo aproximadamente el 12% de la varianza en mi DV, sin embargo, ahora uno de mis IV's indica que está haciendo una contribución significativa (esta es una variable transformada logarítmica) ...

¿Debo informar los datos originales si hay poca diferencia entre mis conclusiones, es decir, mi IV pronostica mal el dv o informa los datos completos?

— dara
fuente

¿Qué significa "escala" para SPSS? ¿Se refiere a datos ordinales ?

— gung - Restablece a Monica

Escalar en formatos SPSS generalmente significa medidas de "intervalo / relación", consulte el comando NIVEL VARIABLE . Pero eso deja la pregunta ¿cuál es la distinción entre la escala 3 y la pregunta del intervalo 1? Dicho esto, aunque esto debería ser suficiente información para abordar su pregunta de manera efectiva.

— Andy W

2

El único consejo que puedo dar es que predecir los puntajes de cambio tiende a ser mucho más difícil que predecir los niveles (por lo que no es sorprendente en muchas situaciones que R^2ocurra un nivel bajo ). Vea una buena discusión sobre los diseños previos a la publicación aquí . ¡Aunque eso todavía no responde totalmente a tu pregunta!

— Andy W

2

Si debe imputar los puntajes anteriores y posteriores, o el puntaje de diferencia, depende de cómo analice la diferencia anterior y posterior. Debe tener en cuenta que existen limitaciones legítimas para los análisis de puntajes de diferencia (consulte Edwards, 1994, para una buena revisión), y un enfoque de regresión en el que analice el residual para los puntajes posteriores después de controlar los puntajes previos podría ser mejor. En ese caso, querrá imputar puntuaciones previas y posteriores, ya que esas son las variables que estarán en su modelo analítico. Sin embargo, si tiene la intención de analizar puntajes de diferencia, impute los puntajes de diferencia, ya que es poco probable que desee calcular manualmente los puntajes de diferencia en todos sus conjuntos de datos imputados. En otras palabras, cualquier variable que esté utilizando en su modelo analítico real,
Nuevamente, imputaría la variable transformada, ya que eso es lo que se usa en su modelo analítico.
Agregar variables al modelo de imputación aumentará las demandas computacionales del proceso de imputación, PERO, si tiene tiempo, más información siempre es mejor. Las variables con datos completos podrían ser variables auxiliares muy útiles para explicar la falta de MAR. Si el uso de todas sus variables resulta en un tiempo / cálculo demasiado exigente de un modelo de imputación (es decir, si tiene un gran conjunto de datos), cree variables ficticias para la falta de cada caso para cada variable, y vea qué variables completas predicen esas variables de falta en logística modelos: luego incluya esas variables de caso completas particulares en su modelo de imputación.
No informaría los análisis originales (es decir, eliminados en la lista). Si su mecanismo de falta es MAR, entonces MI no solo le dará mayor potencia, sino que también le dará estimaciones más precisas (Enders, 2010). Por lo tanto, el efecto significativo con MI podría no ser significativo con la eliminación en la lista porque ese análisis tiene poca potencia, sesgo o ambos.

Referencias

Edwards, JR (1994). Análisis de regresión como alternativa a los puntajes de diferencia. Journal of Management , 20 , 683-689.

Enders, CK (2010). Análisis de datos faltantes aplicados . Nueva York, NY: Guilford Press.

— jsakaluk
fuente

1

En mi experiencia, la función de imputación de SPSS es fácil de usar, tanto para crear conjuntos de datos como para analizar y agrupar los conjuntos de datos de imputación resultantes. Sin embargo, su facilidad de uso es su caída también. Si observa una función de imputación similar en el Rsoftware estadístico (consulte, por ejemplo, el micepaquete), verá muchas más opciones. Consulte el sitio web de Stef van Buurens para obtener una excelente explicación de la imputación múltiple en general (con o sin el paquete de ratones).

Es muy importante tener en cuenta que estas opciones adicionales no son elecciones de 'lujo' solo para usuarios avanzados . Algunos son esenciales para lograr la simpatía adecuada , modelos específicos para variables faltantes específicas , predictores específicos para variables faltantes específicas , diagnóstico de imputación y más, que no están disponibles en la función de imputación SPSS.

En cuanto a sus preguntas:

la imputación de puntajes previos y posteriores y el reemplazo pasivo de las diferencias faltantes es apropiado cuando se desea conservar la relación entre los puntajes previos y posteriores, y la diferencia (como respondió jsakaluk). En su caso, esto podría ser así cuando desee construir un modelo con la diferencia en la puntuación previa y posterior como resultado / variable dependiente y la línea de base (pre-puntuación) como (una de las) variables predictoras / independientes.
Cualquier modelo utilizado para reemplazar los valores perdidos debe cumplir con sus supuestos. Lo que significa que para reemplazar una variable continua debe cumplir con los supuestos de un modelo de regresión lineal (en el caso más simple). para la regresión lineal, y la mayoría de los otros modelos de regresión, las variables predictoras no necesitan distribuirse normalmente, ¡ sin embargo , los residuos del modelo tienen que serlo! Por lo tanto, podría ser necesaria alguna transformación si este último es el caso.
Ver la respuesta de jsakaluk. Sin embargo, tenga en cuenta que SPSS utiliza una imputación masiva , lo que básicamente significa que todas las variables ingresadas se utilizan para reemplazar las variables con casos faltantes. Si solo tiene una variable que falta, no hay problema. Sin embargo, si tiene múltiples, esto significa que las variables con falta también se usan para completar las otras variables con falta. Esto puede no ser un problema, pero en algunos casos esto crea bucles de retroalimentación que sesgan sus valores de imputación finales. Es imperativo verificar esto buscando tendencias a lo largo de las iteraciones de su imputación en lugar de 'estabilizar' los valores reemplazados.
Estoy de acuerdo con la respuesta de jsakaluk en este caso. Si decide 'desconfiar' de sus datos completos porque sospecha fallas selectivas, y resuelve o remedia parcialmente esto mediante el uso de múltiples técnicas de imputación (que creo que serían las menos sesgadas), entonces sus resultados de imputación múltiple deberían ser los principales resultados show. Lamentablemente, la experiencia ha demostrado que los revisores u otras personas interesadas a veces también desean ver análisis completos de casos (así que téngalos a mano).

— IWS
fuente