Modelado de una distribución de Poisson con sobredispersión

15

Tengo un conjunto de datos que esperaría seguir una distribución de Poisson, pero se dispersa en exceso aproximadamente 3 veces. Actualmente, estoy modelando esta sobredispersión usando algo como el siguiente código en R.

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

Visualmente, esto parece encajar muy bien con mis datos empíricos. Si estoy satisfecho con el ajuste, ¿hay alguna razón por la que debería estar haciendo algo más complejo, como usar una distribución binomial negativa, como se describe aquí ? (Si es así, cualquier puntero o enlace al hacerlo sería muy apreciado).

Ah, y soy consciente de que esto crea una distribución ligeramente irregular (debido a la multiplicación por tres), pero eso no debería importar para mi aplicación.

Actualización: por el bien de cualquier otra persona que busque y encuentre esta pregunta, aquí hay una función R simple para modelar un poisson sobredispersado usando una distribución binomial negativa. Establezca d en la relación media / varianza deseada:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(a través de la lista de correo R: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )

— Chrisamiller
fuente

11

para poisson sobredispersado, use el binomio negativo, que le permite parametrizar la varianza en función de la media con precisión. rnbinom (), etc. en R.

— Cyrus S
fuente

1

¿Por qué binomio negativo y no un modelo mixto con un efecto aleatorio a nivel de observación? Esta no es una pregunta retórica. Este es un "No entiendo cuál debería preferir". pregunta. Además, ¿qué pasa si tengo una situación de medidas repetidas? Cuando mis datos son continuos, usaré un modelo mixto lineal generalizado. La distribución Gamma a menudo funciona bien con datos biológicos continuos, y el modelo mixto maneja el elemento de medidas repetidas. Pero, ¿qué hace uno si ha dispersado en exceso los datos de recuento de medidas repetidas?

— Bryan

Una razón por la cual el modelo binomial negativo reparameterizado es popular entre los datos de Poisson sobredispersados es que b / c modela la varianza en función de la media (igual que en el Poisson) con un parámetro de sobredispersión para modelar la varianza "extra". Vea la página 487 aquí para una fórmula rápida: worldscientific.com/doi/pdf/10.1142/9789813235533_0044 y la página de wikipedia para obtener una explicación sobre la reparametrización: en.wikipedia.org/wiki/Negative_binomial_distribution

— Samir Rachid Zaim

4

Si su valor medio para el Poisson es 1500, entonces está muy cerca de una distribución normal; puede intentar usar eso como una aproximación y luego modelar la media y la varianza por separado.

— Rico
fuente

Eso es solo un ejemplo: podría tener una mediana mucho menor, del orden de 200 (depende de cómo particione los datos). Eso impediría usar una distribución normal, ¿verdad?

— Chrisrisler

1

La aproximación normal a la distribución de Poisson es bastante robusta, la diferencia entre los CDF está limitada por algo así como 0.75 / sqrt (lambda), si recuerdo correctamente. No estaría demasiado preocupado por usar lambda = 200, pero si eres más reacio al riesgo, entonces definitivamente ve con el binomio negativo.

— rico