¿Puedo usar la distribución normal GLM con la función LOG link en un DV que ya ha sido transformado?
Si; si los supuestos se satisfacen en esa escala
¿La prueba de homogeneidad de varianza es suficiente para justificar el uso de la distribución normal?
¿Por qué la igualdad de varianza implicaría normalidad?
¿Es correcto el procedimiento de verificación residual para justificar la elección del modelo de función de enlace?
Debe tener cuidado con el uso de histogramas y pruebas de bondad de ajuste para verificar la idoneidad de sus suposiciones:
1) Tenga cuidado al usar el histograma para evaluar la normalidad. (Ver también aquí )
En resumen, dependiendo de algo tan simple como un pequeño cambio en su elección del ancho del contenedor, o incluso solo la ubicación del límite del contenedor, es posible obtener impresiones muy diferentes de la forma de los datos:
Son dos histogramas del mismo conjunto de datos. Usar varios anchos de bin diferentes puede ser útil para ver si la impresión es sensible a eso.
2) Tenga cuidado al usar pruebas de bondad de ajuste para concluir que el supuesto de normalidad es razonable. Las pruebas formales de hipótesis realmente no responden la pregunta correcta.
Por ejemplo, vea los enlaces en el punto 2. aquí
Sobre la varianza, que se mencionó en algunos documentos que utilizan conjuntos de datos similares "porque las distribuciones tenían varianzas homogéneas, se utilizó un GLM con una distribución gaussiana". Si esto no es correcto, ¿cómo puedo justificar o decidir la distribución?
En circunstancias normales, la pregunta no es "¿son normales mis errores (o distribuciones condicionales)?" - no lo serán, ni siquiera necesitamos verificarlo. Una pregunta más relevante es '¿hasta qué punto afecta el grado de no normalidad presente a mis inferencias? "
Sugiero una estimación de la densidad del núcleo o un QQplot normal (gráfico de residuos frente a puntuaciones normales). Si la distribución parece razonablemente normal, tiene poco de qué preocuparse. De hecho, incluso cuando es claramente no es normal que todavía puede no importar mucho, dependiendo de lo que quiere hacer (intervalos de predicción normal, realmente va a depender de la normalidad, por ejemplo, pero muchas otras cosas tenderán a trabajar en muestras de gran tamaño )
Curiosamente, en muestras grandes, la normalidad se vuelve cada vez menos crucial (aparte de los IP como se mencionó anteriormente), pero su capacidad para rechazar la normalidad se vuelve cada vez mayor.
Editar: el punto sobre la igualdad de varianza es que realmente puede afectar sus inferencias, incluso en muestras de gran tamaño. Pero probablemente tampoco debería evaluar eso mediante pruebas de hipótesis. Obtener el supuesto de varianza incorrecto es un problema cualquiera que sea su distribución supuesta.
Leí que la desviación a escala debería estar alrededor de Np para el modelo para un buen ajuste, ¿verdad?
Cuando se ajusta a un modelo normal, tiene un parámetro de escala, en cuyo caso su desviación escalada será de Np incluso si su distribución no es normal.
en su opinión, la distribución normal con enlace de registro es una buena opción
En ausencia continua de saber lo que está midiendo o para qué está usando la inferencia, todavía no puedo juzgar si sugerir otra distribución para el GLM, ni cuán importante podría ser la normalidad para sus inferencias.
Sin embargo, si sus otras suposiciones también son razonables (la linealidad y la igualdad de varianza deben al menos verificarse y se deben considerar las posibles fuentes de dependencia), entonces, en la mayoría de las circunstancias, me sentiría muy cómodo haciendo cosas como usar CI y realizar pruebas de coeficientes o contrastes - solo hay una leve impresión de asimetría en esos residuos, que, incluso si es un efecto real, no debería tener un impacto sustancial en ese tipo de inferencia.
En resumen, deberías estar bien.
(Si bien otra función de distribución y enlace podría mejorar un poco en términos de ajuste, solo en circunstancias restringidas es probable que también tengan más sentido).