Logré transformar mi variable dependiente, ¿puedo usar la distribución normal GLM con la función de enlace LOG?

Tengo una pregunta sobre los modelos lineales generalizados (GLM). Mi variable dependiente (DV) es continua y no normal. Así que log lo transformé (todavía no es normal pero lo mejoré).

Quiero relacionar el DV con dos variables categóricas y una covariable continua. Para esto quiero realizar un GLM (estoy usando SPSS) pero no estoy seguro de cómo decidir sobre la distribución y la función para elegir.

He realizado la prueba no paramétrica de Levene y tengo homogeneidad de las variaciones, por lo que me inclino a usar la distribución normal. He leído que para la regresión lineal los datos no necesitan ser normales, los residuales sí. Entonces, imprimí los residuos estandarizados de Pearson y los valores pronosticados para el predictor lineal de cada GLM individualmente (función de identidad normal de GLM y función de registro normal). He realizado pruebas de normalidad (histograma y Shapiro-Wilk) y tracé los residuos contra los valores pronosticados (para verificar la aleatoriedad y la varianza) para ambos individualmente. Los residuos de la función de identidad no son normales, pero los residuos de la función de registro son normales. Me inclino a elegir normal con la función de enlace de registro porque los residuos de Pearson se distribuyen normalmente.

Entonces mis preguntas son:

¿Puedo usar la distribución normal GLM con la función LOG link en un DV que ya ha sido transformado?
¿La prueba de homogeneidad de varianza es suficiente para justificar el uso de la distribución normal?
¿Es correcto el procedimiento de verificación residual para justificar la elección del modelo de función de enlace?

Imagen de la distribución DV a la izquierda y los residuos de la GLM normal con función de enlace de registro a la derecha.

Distribución de DV a la izquierda y residuos del GLM normal a la derecha

— Científico
fuente

No está muy claro qué quiere decir con esto: " Por lo tanto, he comparado los residuos de Pearson de GLM con función identidad y la función normal logarítmica normal. "

— Glen_b -Reinstate Mónica

Gracias por tu comentario. Quise decir que imprimí los residuos y los valores pronosticados de cada GLM (identidad y registro) individualmente y verifiqué la normalidad y tracé los residuos estandarizados de Pearson contra los valores pronosticados para cada modelo individualmente. Para la función de identidad, los residuos no son normales, mientras que para la función de registro, los residuos son normales.

— Científico

¿Cómo una gráfica de los residuos de Pearson estandarizados contra los valores pronosticados indica si los datos son realmente normales o no?

— Glen_b -Reinstate a Monica el

Verifiqué la normalidad trazando el histograma de los residuos y realizando Shapiro-Wilk (P> 0.05 para la función de registro). Luego tracé los residuos contra los valores pronosticados para ver si estaban distribuidos al azar y para verificar la varianza. (perdón por no decir información importante, es la primera vez que estoy publicando)

— Científico

Supongo que "función de identidad" es un deslizamiento de homófono aquí para "función de densidad".

— Nick Cox

¿Puedo usar la distribución normal GLM con la función LOG link en un DV que ya ha sido transformado?

Si; si los supuestos se satisfacen en esa escala

¿La prueba de homogeneidad de varianza es suficiente para justificar el uso de la distribución normal?

¿Por qué la igualdad de varianza implicaría normalidad?

¿Es correcto el procedimiento de verificación residual para justificar la elección del modelo de función de enlace?

Debe tener cuidado con el uso de histogramas y pruebas de bondad de ajuste para verificar la idoneidad de sus suposiciones:

1) Tenga cuidado al usar el histograma para evaluar la normalidad. (Ver también aquí )

En resumen, dependiendo de algo tan simple como un pequeño cambio en su elección del ancho del contenedor, o incluso solo la ubicación del límite del contenedor, es posible obtener impresiones muy diferentes de la forma de los datos:

Dos histogramas de residuos.

Son dos histogramas del mismo conjunto de datos. Usar varios anchos de bin diferentes puede ser útil para ver si la impresión es sensible a eso.

2) Tenga cuidado al usar pruebas de bondad de ajuste para concluir que el supuesto de normalidad es razonable. Las pruebas formales de hipótesis realmente no responden la pregunta correcta.

Por ejemplo, vea los enlaces en el punto 2. aquí

Sobre la varianza, que se mencionó en algunos documentos que utilizan conjuntos de datos similares "porque las distribuciones tenían varianzas homogéneas, se utilizó un GLM con una distribución gaussiana". Si esto no es correcto, ¿cómo puedo justificar o decidir la distribución?

En circunstancias normales, la pregunta no es "¿son normales mis errores (o distribuciones condicionales)?" - no lo serán, ni siquiera necesitamos verificarlo. Una pregunta más relevante es '¿hasta qué punto afecta el grado de no normalidad presente a mis inferencias? "

Sugiero una estimación de la densidad del núcleo o un QQplot normal (gráfico de residuos frente a puntuaciones normales). Si la distribución parece razonablemente normal, tiene poco de qué preocuparse. De hecho, incluso cuando es claramente no es normal que todavía puede no importar mucho, dependiendo de lo que quiere hacer (intervalos de predicción normal, realmente va a depender de la normalidad, por ejemplo, pero muchas otras cosas tenderán a trabajar en muestras de gran tamaño )

Curiosamente, en muestras grandes, la normalidad se vuelve cada vez menos crucial (aparte de los IP como se mencionó anteriormente), pero su capacidad para rechazar la normalidad se vuelve cada vez mayor.

Editar: el punto sobre la igualdad de varianza es que realmente puede afectar sus inferencias, incluso en muestras de gran tamaño. Pero probablemente tampoco debería evaluar eso mediante pruebas de hipótesis. Obtener el supuesto de varianza incorrecto es un problema cualquiera que sea su distribución supuesta.

Leí que la desviación a escala debería estar alrededor de Np para el modelo para un buen ajuste, ¿verdad?

Cuando se ajusta a un modelo normal, tiene un parámetro de escala, en cuyo caso su desviación escalada será de Np incluso si su distribución no es normal.

en su opinión, la distribución normal con enlace de registro es una buena opción

En ausencia continua de saber lo que está midiendo o para qué está usando la inferencia, todavía no puedo juzgar si sugerir otra distribución para el GLM, ni cuán importante podría ser la normalidad para sus inferencias.

Sin embargo, si sus otras suposiciones también son razonables (la linealidad y la igualdad de varianza deben al menos verificarse y se deben considerar las posibles fuentes de dependencia), entonces, en la mayoría de las circunstancias, me sentiría muy cómodo haciendo cosas como usar CI y realizar pruebas de coeficientes o contrastes - solo hay una leve impresión de asimetría en esos residuos, que, incluso si es un efecto real, no debería tener un impacto sustancial en ese tipo de inferencia.

En resumen, deberías estar bien.

(Si bien otra función de distribución y enlace podría mejorar un poco en términos de ajuste, solo en circunstancias restringidas es probable que también tengan más sentido).

— Glen_b -Reinstate a Monica
fuente

¡Gracias de nuevo! Sobre la varianza, que se mencionó en algunos documentos que utilizan conjuntos de datos similares "porque las distribuciones tenían varianzas homogéneas, se utilizó un GLM con una distribución gaussiana". Si esto no es correcto, ¿cómo puedo justificar o decidir la distribución? En cuanto a la distribución normal residual, significa que es más apropiado ¿verdad? Leí que la desviación a escala debería estar alrededor de Np para el modelo para un buen ajuste, ¿verdad? El valor es el mismo tanto para GLM como para Np. También he identificado el modelo más adecuado en el modelo utilizando los criterios de AIC. No estoy seguro si esto es lo que quisiste decir.

— Científico

vea la discusión en mis ediciones anteriores

— Glen_b -Reinstate Monica

Gracias @Glen_b por la buena explicación. El histograma que también probé con Shapiro-Wilk, ¿no considerará todo? Tracé QQ trazó valores residuales normales y observados de Pearson observados y los puntos + - se ajustan a la línea, excepto en las puntas donde van ligeramente hacia arriba. ¿Es esto lo que quisiste decir? La distribución de los residuos parece normal, ¿entonces puedo continuar? (incluso si el DV registrado no es normal) (todavía estoy leyendo los enlaces pero quería preguntar esto)

— Científico

" porque el gráfico QQ normal se distribuyó normalmente para este modelo? " ... Podría decir que "el gráfico QQ de los residuos sugiere que la suposición de normalidad es razonable" o "los residuos parecen razonablemente cercanos a lo normal". Si su audiencia espera pruebas de hipótesis, aún puede citar una (pero eso no altera el hecho de que no son particularmente útiles). " El problema con el conjunto de datos es que en el histograma de la DV " ... no se asume la distribución de la DV incondicional o cualquiera de los IV.

— Glen_b -Reinstate a Monica el

Vea la discusión adicional al final de mi respuesta. Lo siento, no respondí antes, pero estaba durmiendo. En la otra pregunta, la razón por la que pregunté fue que los dos modelos comparten la mayoría de sus suposiciones, y casi toda esta discusión es relevante para esa pregunta, incluso si el DV es diferente. No es exactamente la misma situación (por lo que debería ser una pregunta nueva), pero esta pregunta debe estar vinculada a ella, por lo que puede hacer preguntas en el contexto de esta discusión, como si hay problemas diferentes o adicionales.

— Glen_b -Reinstate a Monica el