Creo que tratar de pensar en esto como un modelo lineal generalizado es excesivo. Lo que tienes es un viejo modelo de regresión simple. Más específicamente, debido a que tiene algunas variables explicativas categóricas y un EV continuo, pero no interacciones entre ellas, esto también podría llamarse un ANCOVA clásico.
Yo diría que el # 3 no es realmente una suposición aquí de la que debes preocuparte. Tampoco debes preocuparte realmente por el n. ° 2. En cambio, suplantaría estos con dos supuestos diferentes:
2 '. Homogeneidad de la varianza
3 '. Normalidad de residuos
Además, el # 4 es algo importante para verificar, pero realmente no lo considero una suposición per se. Pensemos en cómo se pueden verificar los supuestos.
La independencia a menudo se 'verifica' en primer lugar pensando en lo que significan los datos y cómo se recopilaron. Además, se puede comprobar con cosas como un corridas de prueba , prueba de Durbin-Watson , o examinar el patrón de autocorrelaciones --usted también puede mirar parciales autocorrelaciones . (Tenga en cuenta que estos solo pueden evaluarse en relación con su covariable continua).
Con variables explicativas principalmente categóricas, la homogeneidad de la varianza se puede verificar calculando la varianza en cada nivel de sus factores. Habiendo calculado esto, hay varias pruebas utilizadas para verificar si son más o menos iguales, principalmente la prueba de Levene , pero también la prueba de Brown-Forsyth . losFm a xno se recomienda la prueba, también llamada prueba de Hartley ; si desea un poco más de información al respecto, lo discuto aquí . (Tenga en cuenta que estas pruebas se pueden aplicar a sus covariables categóricas a diferencia de lo anterior). Para un EV continuo, me gusta graficar mis residuos contra la covariable continua y examinarlos visualmente para ver si se extienden más hacia un lado u otro.
La normalidad de los residuos se puede evaluar a través de algunas pruebas, como las pruebas de Shapiro-Wilk o Kolmogorov-Smirnov , pero a menudo se evalúa mejor visualmente a través de un gráfico qq . (Tenga en cuenta que esta suposición es generalmente la menos importante del conjunto; si no se cumple, sus estimaciones beta seguirán siendo imparciales , pero sus valores p serán inexactos).
Hay varias formas de evaluar la influencia de sus observaciones individuales. Es posible obtener valores numéricos que indexen esto, pero mi forma favorita, si puede hacerlo, es afilar sus datos. Es decir, suelta cada punto de datos a su vez y vuelve a ajustar su modelo. Luego puede examinar cuánto rebotan sus betas si esa observación no fuera parte de su conjunto de datos. Esta medida se llama dfbeta . Esto requiere un poco de programación, pero hay formas estándar en que el software a menudo puede calcularlo automáticamente. Estos incluyen apalancamiento y la distancia de Cook .
Con respecto a su pregunta como se indicó originalmente, si desea saber más sobre las funciones de enlace y el modelo lineal generalizado, lo discutí bastante extensamente aquí . Básicamente, lo más importante a considerar para seleccionar una función de enlace apropiada es la naturaleza de su distribución de respuesta; ya que creesY es gaussiano, el vínculo de identidad es apropiado, y puede pensar en esta situación utilizando ideas estándar sobre modelos de regresión.
Con respecto a la "escala correcta de medición de variables explicativas", considero que se refiere a los niveles de medición de Steven (es decir, categórico, ordinal, intervalo y relación). Lo primero que debe darse cuenta es que los métodos de regresión (incluidos los GLiM) no hacen suposiciones sobre las variables explicativas, sino que la forma en que usa sus variables explicativas en su modelo refleja sus creencias sobre ellas. Además, tiendo a pensar que los niveles de Steven son exagerados; Para un tratamiento más teórico de ese tema, ver aquí .