Suposiciones de modelos lineales generalizados

En la página 232 de "Un compañero de R para la regresión aplicada", Fox y Weisberg observan

Solo la familia gaussiana tiene una varianza constante, y en todos los demás GLM la varianza condicional de y en depende de $\bf{x}$ $\mu(x)$

Anteriormente, observaron que la varianza condicional del Poisson es y la del binomio es $\mu$ . $\frac{\mu(1-\mu)}{N}$

Para el gaussiano, esta es una suposición familiar y a menudo comprobada (homocedasticidad). De manera similar, a menudo veo la varianza condicional del Poisson discutido como una suposición de la regresión de Poisson, junto con remedios para casos en los que se viola (por ejemplo, binomio negativo, cero inflado, etc.). Sin embargo, nunca veo la varianza condicional para el binomio discutido como una suposición en la regresión logística. Un poco de Google no encontró ninguna mención de ello.

¿Que me estoy perdiendo aqui?

EDITAR posterior al comentario de @whuber:

Como sugerí, estoy mirando Hosmer & Lemeshow. Es interesante y creo que muestra por qué yo (y quizás otros) estamos confundidos. Por ejemplo, la palabra "suposición" no está en el índice del libro. Además, tenemos esto (p. 175)

En la regresión logística, debemos confiar principalmente en la evaluación visual, ya que la distribución de los diagnósticos bajo la hipótesis de que el modelo se ajusta solo se conoce en ciertos entornos limitados.

Muestran bastantes gráficos, pero se concentran en gráficos de dispersión de varios residuos frente a la probabilidad estimada. Estas gráficas (incluso para un buen modelo, no tienen el patrón "blobby" característico de las gráficas similares en la regresión de OLS, por lo que son más difíciles de juzgar. Además, no muestran nada parecido a las gráficas cuantiles.

En R, plot.lm ofrece un buen conjunto predeterminado de gráficos para evaluar modelos; No conozco un equivalente para la regresión logística, aunque puede estar en algún paquete. Esto puede deberse a que se necesitarían diferentes gráficos para cada tipo de modelo. SAS ofrece algunas parcelas en PROC LOGISTIC.

¡Esto ciertamente parece ser un área de confusión potencial!

logistic generalized-linear-model

— Peter Flom - Restablece a Monica
fuente

Si tiene una copia de Hosmer & Lemeshow, Regresión logística aplicada, consulte el capítulo "Evaluación del ajuste del modelo": la varianza condicional del Binomial aparece en todas partes y se explica explícitamente en casi todas las pruebas de GoF.

— whuber

Creo que el supuesto real impone el supuesto binomial: las respuestas son independientes 0/1, por lo que la distribución binomial es la única que modela el experimento real. Por el contrario, el supuesto de la distribución de Poisson para los recuentos no es realista.

— Stéphane Laurent

Gracias @whuber. Tengo ese libro y lo revisaré

— Peter Flom - Restablece a Monica

... pero la función de enlace no es natural y determina la varianza condicional ... por lo que mi comentario anterior no fue muy sensato

— Stéphane Laurent

Respuestas:

Estas gráficas (incluso para un buen modelo, no tienen el patrón "blobby" característico de las gráficas similares en la regresión de OLS, por lo que son más difíciles de juzgar. Además, no muestran nada parecido a las gráficas cuantiles.

El paquete DHARMa R resuelve este problema simulando desde el modelo ajustado para transformar los residuos de cualquier GL (M) M en un espacio estandarizado. Una vez hecho esto, se pueden aplicar todos los métodos regulares para evaluar visualmente y formalmente los problemas residuales (por ejemplo, gráficos qq, sobredispersión, heterocedasticidad, autocorrelación). Consulte la viñeta del paquete para ver ejemplos prácticos.

Con respecto al comentario de @Otto_K: si la sobredispersión homogénea es el único problema, probablemente sea más simple usar un efecto aleatorio a nivel de observación, que se puede implementar con un GLMM binomial estándar. Sin embargo, creo que @PeterFlom también estaba preocupado por la heterocedasticidad, es decir, un cambio en el parámetro de dispersión con algunas predicciones o predicciones del modelo. Esto no será recogido / corregido por los controles / correcciones de sobredispersión estándar, pero puede verlo en los gráficos residuales de DHARMa. Para corregirlo, modelar la dispersión en función de otra cosa en JAGS o STAN es probablemente la única forma en este momento.

— Florian Hartig
fuente

El tema que explica con frecuencia se llama sobredispersión . En mi trabajo vi una posible solución a este tema:

Utilizando un enfoque bayesiano y estimando una distribución beta-binomial. Esto tiene la gran ventaja de que otras distribuciones (inducidas por otros antecedentes) tienen una solución de forma cerrada.

Referencias

Distribución beta-binomial
Notas de los estimadores de Peter Hoff Bayes ( pdf )

— Otto_K
fuente