Sobredispersión y subdispersión en regresión binomial negativa / Poisson

Estaba realizando una regresión de Poisson en SAS y descubrí que el valor de chi-cuadrado de Pearson dividido por los grados de libertad era de alrededor de 5, lo que indica una sobredispersión significativa. Entonces, ajusté un modelo binomial negativo con proc genmod y encontré que el valor de chi-cuadrado de Pearson dividido por los grados de libertad es 0.80. ¿Se considera que esto ahora está poco disperso? Si es así, ¿cómo se maneja esto? He leído mucho sobre la sobredispersión y creo que sé cómo manejar esto, pero la información sobre cómo manejar o determinar si hay poca dispersión es escasa. ¿Alguien puede ayudar?

Gracias.

regression binomial underdispersion

— EstadísticasEstudiante
fuente

Este documento puede ser de interés: Cuasi-Poisson vs. Regresión binomial negativa: ¿Cómo debemos modelar los datos de recuento disperso? (Ver Hoef y Boveng, 2007) .

— Abraham el

Para una distribución de Poisson con media la varianza también es . Dentro del marco de modelos lineales generalizados, esto implica que la función de varianza es para el modelo de Poisson. Esta suposición modelo puede estar equivocada por muchas razones diferentes. Los datos de recuento sobredispersos con una varianza mayor que la que dicta la distribución de Poisson se encuentran, por ejemplo, a menudo. $\mu$ $\mu$

V (μ) = μ

$V(\mu) = \mu$

Las desviaciones del supuesto de varianza pueden en un contexto de regresión tomar varias formas. La más simple es que la función de varianza es igual a con un parámetro de dispersión . Este es el modelo cuasi-Poisson. Proporcionará el mismo modelo de regresión ajustado, pero la inferencia estadística ( valores e intervalos de confianza) se ajusta por dispersión excesiva o insuficiente utilizando un parámetro de dispersión estimado.

V (μ) = ψ μ

$V(\mu) = \psi \mu$

ψ > 0

$\psi > 0$

p

$p$

La forma funcional de la función de varianza también puede estar equivocada. Podría ser un polinomio de segundo grado digamos. Los ejemplos incluyen el binomio, el binomio negativo y el modelo gamma. La elección de cualquiera de estos modelos como alternativa al modelo de Poisson afectará el modelo de regresión ajustado, así como la inferencia estadística posterior. Para la distribución binomial negativa con el parámetro de forma la función de varianza es De esto podemos ver que si obtenemos la función de varianza para la distribución de Poisson.

V (μ) = a μ^{2} + b μ + c,

$V(\mu) = a\mu^2 + b \mu + c,$

λ > 0

$\lambda > 0$

V (μ) = μ (1 + \frac{μ}{λ}) .

$V(\mu) = \mu\left( 1 + \frac{\mu}{\lambda}\right).$

λ \to \infty

$\lambda \to \infty$

Para determinar si la función de varianza para el modelo de Poisson es apropiada para los datos, podemos estimar el parámetro de dispersión como sugiere el OP y verificar si es aproximadamente 1 (quizás usando una prueba formal). Tal prueba no sugiere una alternativa específica, pero se entiende más claramente dentro del modelo cuasi-Poisson. Para probar si la forma funcional de la función de varianza es apropiada, podríamos construir una prueba de razón de probabilidad del modelo de Poisson ( ) contra el modelo binomial negativo ( ). Tenga en cuenta que tiene una distribución no estándar bajo la hipótesis nula. O podríamos utilizar métodos basados en AIC en general para comparar modelos no anidados. Pruebas basadas en regresión para sobredispersión en el modelo de Poisson $\lambda = \infty$ $\lambda < \infty$ explora una clase de pruebas para funciones de varianza general.

Sin embargo, recomendaría en primer lugar estudiar gráficos de residuos, por ejemplo, un gráfico de los residuos de Pearson o de desviación (o su valor al cuadrado) contra los valores ajustados. Si la forma funcional de la varianza es incorrecta, verá esto como una forma de embudo (o una tendencia para los residuos al cuadrado) en el gráfico de residuos. Si la forma funcional es correcta, es decir, sin embudo o tendencia, todavía podría haber una dispersión excesiva o insuficiente, pero esto puede explicarse estimando el parámetro de dispersión. El beneficio de la gráfica residual es que sugiere más claramente que una prueba lo que está mal con la función de varianza, si es que hay algo.

En el caso concreto del OP, no es posible decir si 0.8 indica una dispersión insuficiente de la información dada. En lugar de centrarnos en las estimaciones 5 y 0.8, sugiero que primero investigue el ajuste de las funciones de varianza del modelo de Poisson y el modelo binomial negativo. Una vez que se determina la forma funcional más apropiada de la función de varianza, se puede incluir un parámetro de dispersión, si es necesario, en cualquiera de los modelos para ajustar la inferencia estadística para cualquier dispersión excesiva o insuficiente adicional. Lamentablemente, cómo hacerlo fácilmente en SAS no es algo con lo que pueda ayudar.

— NRH
fuente

+1, esta es una buena información general. Podría ser más útil para el OP si aborda específicamente las preguntas explícitas del OP: (1) está .8 poco disperso; & (2) si es así, cómo lidiar con eso.

— gung - Restablece a Monica

@gung, he editado la respuesta para dar consejos más específicos. No puede determinar si 0.8 es significativamente menor que 1 a partir de la información disponible, y en mi humilde opinión, centrarse en si el parámetro de dispersión es 1 es una diversión. Mi edición explica en qué creo que debería enfocarse el OP.

— NRH