GLM gamma con enlace log vs GLM gaussiano con enlace log vs LM transformado con registro

Según mis resultados, parece que GLM Gamma cumple con la mayoría de los supuestos, pero ¿es una mejora valiosa sobre el LM transformado por registro? La mayoría de la literatura que he encontrado trata sobre Poisson o Binomial GLM. El artículo EVALUACIÓN DE LAS ASUNCIONES DE MODELO LINEAL GENERALIZADO QUE UTILIZA LA ALEATORIZACIÓN me pareció muy útil, pero carece de las tramas reales utilizadas para tomar una decisión. Espero que alguien con experiencia pueda señalarme en la dirección correcta.

Quiero modelar la distribución de mi variable de respuesta T, cuya distribución se representa a continuación. Como se puede ver, es asimetría positiva:
XHTML válido .

Tengo dos factores categóricos a considerar: METH y CASEPART.
Tenga en cuenta que este estudio es principalmente exploratorio, esencialmente sirve como estudio piloto antes de teorizar un modelo y realizar DoE a su alrededor.

Tengo los siguientes modelos en R, con sus diagramas de diagnóstico:

LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)

XHTML válido

GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))

XHTML válido

GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))

XHTML válido

También obtuve los siguientes valores de P a través de la prueba de Shapiro-Wilks en residuos:

LM.LOG: 2.347e-11  
GLM.GAMMA: 0.6288  
GLM.GAUS:  0.6288

Calculé los valores de AIC y BIC, pero si estoy en lo correcto, no me dicen mucho debido a las diferentes familias en los GLM / LM.

Además, noté los valores extremos, pero no puedo clasificarlos como valores atípicos ya que no existe una "causa especial" clara.

r generalized-linear-model model-selection gamma-distribution

— TLJ
fuente

posible duplicado de Elegir entre LM y GLM para una variable de respuesta transformada logarítmica

— Marc en el cuadro

Vale la pena señalar que los tres modelos son multiplicativos en el sentido de que un aumento en un regresor está asociado con un cambio relativo en la respuesta típica. Para los dos GLM lineales logarítmicos, "típico" significa media aritmética, mientras que para el LM transformado logarítmicamente estamos hablando de medios geométricos. Por lo tanto, la forma en que desea interpretar los efectos y las predicciones también es un factor determinante para la elección del modelo, no solo con gráficos residuales perfectos (de todos modos, estos se basan en datos).

— Michael M

@MichaelMayer - Gracias por la respuesta, muy útil. ¿Podría ampliar un poco exactamente cómo la elección afecta la interpretación? ¿O señalarme en la dirección de una referencia?

— TLJ

@ Marcinthebox- Revisé esa pregunta antes de publicar. No responde exactamente mi pregunta de manera muy concisa.

— TLJ

Bueno, claramente, el ajuste log-lineal al gaussiano no es adecuado; Hay una fuerte heterocedasticidad en los residuos. Así que tomemos eso fuera de consideración.

Lo que queda es lognormal vs gamma.

$T$

Cualquiera de los modelos parece casi igualmente adecuado en este caso. Ambos tienen una varianza proporcional al cuadrado de la media, por lo que el patrón de dispersión de los residuos frente al ajuste es similar.

Un valor atípico bajo se ajustará ligeramente mejor con una gamma que un lognormal (viceversa para un valor atípico alto). En una media y varianza dada, el lognormal es más sesgado y tiene un coeficiente de variación más alto.

$\exp(\mu)$ $\sigma^2$

Vea también aquí y aquí para algunas discusiones relacionadas.

— Glen_b -Reinstate a Monica
fuente

@Gleb_b esta respuesta es muy útil para mi análisis. Tengo algunas preguntas. (1) Primero, ¿es esto 'Ambos tienen una varianza proporcional al cuadrado de la media ...' basado en la gráfica residual vs ajustada? (2) ¿Y esto es 'Un valor atípico bajo se ajustará ligeramente mejor con una gamma ... En una media y varianza dada, ...' basado en la gráfica qq? (3) Por lo que entiendo, glm (por ejemplo, gamma, poisson y binomio negativo) no tiene la suposición de normalidad de los residuos y la homogeneidad de la varianza. Si es así, ¿por qué sería relevante el trazado de los residuos frente a la gráfica qq ajustada y normal para el diagnóstico?

— tatami

Esto es lo suficientemente extenso como para ser una pregunta completamente nueva, o incluso varias (¡la mayoría de las cuales ya están respondidas en nuestro sitio!) - 1. parte del modelo. 2. No, estos son hechos generales sobre las distribuciones. 3. Correcto, no son normales, sin embargo, los residuos utilizados en la gráfica QQ son residuos de desviación (internamente estudiados) que, particularmente en el caso de gamma, generalmente tenderán a estar muy cerca de la distribución normal (escribí una respuesta explicando por qué en algún punto) y debería tener una varianza esencialmente constante. Alguna desviación de la normalidad no es inesperada, sino una desviación sustancial ...

— ctd

ctd ... de la normalidad (suponiendo que las otras parcelas estén bien) puede indicar un problema con el supuesto de distribución.

— Glen_b -Reinstate Monica