Suposiciones del modelo lineal generalizado

Hice un modelo lineal generalizado con una sola variable de respuesta (continua / distribuida normalmente) y 4 variables explicativas (3 de las cuales son factores y la cuarta es un número entero). He usado una distribución de errores gaussiana con una función de enlace de identidad. Actualmente estoy comprobando que el modelo satisface los supuestos del modelo lineal generalizado, que son:

independencia de Y
función de enlace correcta
escala correcta de medición de variables explicativas
sin observaciones influyentes

Mi pregunta es: ¿cómo puedo verificar que el modelo cumple con estos supuestos?El mejor punto de partida parece ser trazar la variable de respuesta contra cada variable explicativa. Sin embargo, 3 de las variables explicativas son categóricas (con 1-4 niveles), entonces, ¿qué debo buscar en las parcelas?

Además, ¿debo verificar la multicolinealidad y las interacciones entre las variables explicativas? En caso afirmativo, ¿cómo hago esto con variables explicativas categóricas?

— luciano
fuente

Creo que tratar de pensar en esto como un modelo lineal generalizado es excesivo. Lo que tienes es un viejo modelo de regresión simple. Más específicamente, debido a que tiene algunas variables explicativas categóricas y un EV continuo, pero no interacciones entre ellas, esto también podría llamarse un ANCOVA clásico.

Yo diría que el # 3 no es realmente una suposición aquí de la que debes preocuparte. Tampoco debes preocuparte realmente por el n. ° 2. En cambio, suplantaría estos con dos supuestos diferentes:

2 '. Homogeneidad de la varianza
3 '. Normalidad de residuos

Además, el # 4 es algo importante para verificar, pero realmente no lo considero una suposición per se. Pensemos en cómo se pueden verificar los supuestos.

La independencia a menudo se 'verifica' en primer lugar pensando en lo que significan los datos y cómo se recopilaron. Además, se puede comprobar con cosas como un corridas de prueba , prueba de Durbin-Watson , o examinar el patrón de autocorrelaciones --usted también puede mirar parciales autocorrelaciones . (Tenga en cuenta que estos solo pueden evaluarse en relación con su covariable continua).

Con variables explicativas principalmente categóricas, la homogeneidad de la varianza se puede verificar calculando la varianza en cada nivel de sus factores. Habiendo calculado esto, hay varias pruebas utilizadas para verificar si son más o menos iguales, principalmente la prueba de Levene , pero también la prueba de Brown-Forsyth . los $F_{max}$ no se recomienda la prueba, también llamada prueba de Hartley ; si desea un poco más de información al respecto, lo discuto aquí . (Tenga en cuenta que estas pruebas se pueden aplicar a sus covariables categóricas a diferencia de lo anterior). Para un EV continuo, me gusta graficar mis residuos contra la covariable continua y examinarlos visualmente para ver si se extienden más hacia un lado u otro.

La normalidad de los residuos se puede evaluar a través de algunas pruebas, como las pruebas de Shapiro-Wilk o Kolmogorov-Smirnov , pero a menudo se evalúa mejor visualmente a través de un gráfico qq . (Tenga en cuenta que esta suposición es generalmente la menos importante del conjunto; si no se cumple, sus estimaciones beta seguirán siendo imparciales , pero sus valores p serán inexactos).

Hay varias formas de evaluar la influencia de sus observaciones individuales. Es posible obtener valores numéricos que indexen esto, pero mi forma favorita, si puede hacerlo, es afilar sus datos. Es decir, suelta cada punto de datos a su vez y vuelve a ajustar su modelo. Luego puede examinar cuánto rebotan sus betas si esa observación no fuera parte de su conjunto de datos. Esta medida se llama dfbeta . Esto requiere un poco de programación, pero hay formas estándar en que el software a menudo puede calcularlo automáticamente. Estos incluyen apalancamiento y la distancia de Cook .

Con respecto a su pregunta como se indicó originalmente, si desea saber más sobre las funciones de enlace y el modelo lineal generalizado, lo discutí bastante extensamente aquí . Básicamente, lo más importante a considerar para seleccionar una función de enlace apropiada es la naturaleza de su distribución de respuesta; ya que crees $Y$ es gaussiano, el vínculo de identidad es apropiado, y puede pensar en esta situación utilizando ideas estándar sobre modelos de regresión.

Con respecto a la "escala correcta de medición de variables explicativas", considero que se refiere a los niveles de medición de Steven (es decir, categórico, ordinal, intervalo y relación). Lo primero que debe darse cuenta es que los métodos de regresión (incluidos los GLiM) no hacen suposiciones sobre las variables explicativas, sino que la forma en que usa sus variables explicativas en su modelo refleja sus creencias sobre ellas. Además, tiendo a pensar que los niveles de Steven son exagerados; Para un tratamiento más teórico de ese tema, ver aquí .

— gung - Restablece a Monica
fuente

Dado que el Op incluía una función de enlace, creo que realmente se refería a un modelo lineal generalizado donde una función de enlace se aplica a Y. También llamaría a la independencia de Y como una suposición. La suposición, creo, es más adecuada que los componentes de error en el modelo son independientes. Dado que creo que el resto de lo que escribió Gung es correcto.

— Michael R. Chernick

@MichaelChernick, estoy de acuerdo contigo. He editado un poco mi respuesta para abordar estos problemas. Avíseme si cree que todavía necesita más trabajo.

— gung - Restablecer Monica