¿Cómo puedo probar si se toman muestras de una distribución de Poisson?

41

Sé de las pruebas de normalidad, pero ¿cómo pruebo el "Poisson-ness"?

Tengo una muestra de ~ 1000 enteros no negativos, que sospecho que se tomaron de una distribución de Poisson, y me gustaría probar eso.

— David B
fuente

18

En primer lugar, mi consejo es que debe abstenerse de probar una distribución de Poisson tal como se hace con los datos. Sugiero que primero debe hacer una teoría de por qué la distribución de Poisson debe ajustarse a un conjunto de datos o fenómeno particular.

Una vez que haya establecido esto, la siguiente pregunta es si la distribución es homogénea o no. Esto significa si todas las partes de los datos son manejadas por la misma distribución de Poisson o si hay una variación en esto basada en algún aspecto como el tiempo o el espacio. Una vez que se haya convencido de estos aspectos, pruebe las siguientes tres pruebas:

prueba de razón de probabilidad utilizando una variable chi cuadrado
uso de estadística condicional de chi-cuadrado; también llamado prueba de dispersión de poisson o prueba de varianza
uso de la estadística de Neyman-Scott, que se basa en una transformación estabilizadora de la varianza de la variable de Poisson

busque estos y los encontrará fácilmente en la red.

— htrahdis
fuente

3

"si la distribución es homogénea o no ... Una vez que se haya convencido de estos aspectos" ¿Podría comentar un poco cómo determinar esto?

— significado para el

13

Aquí hay una secuencia de comandos R que pueden ser útiles. Siéntase libre de comentar o editar si detecta algún error.

set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.

hist(x.poi,main="Poisson distribution")

lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies


freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]]  ## vector of emprical frequencies

freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies

acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index

h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")

#Perform the chi-square goodness of fit test 
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")

— George Dontas
fuente

3

Esta línea: freq.ex <- (dpois (0: max (x.poi), lambda = lambda.est) * 200) produce errores con algunos datos del mundo real, porque la longitud de freq.ex no coincidirá con freq. obs en esta línea acc <- mean (abs (freq.os-trunc (freq.ex))). Adapté esta línea a freq.ex <- (dpois (seq (0, max (x.poi)) [seq (0: max (x.poi))% en% x.poi], lambda = lambda.est) * 200) pero algo todavía no está del todo bien porque goodfit produce advertencias.

— russellpierce

Usando su código, recibo un índice de ajuste de 121. Pero es relativo, ¿no? Entonces debería estar entre 0 y 100, ¿verdad?

— MERose

6

Supongo que la forma más fácil es hacer una prueba de bondad de ajuste chi-cuadrado .

De hecho, aquí hay un buen applet de Java que hará exactamente eso.

— csgillespie
fuente

5

Puede usar la dispersión (relación de varianza a la media) como estadística de prueba, ya que el Poisson debería dar una dispersión de 1. Aquí hay un enlace a cómo usarla como prueba modelo.

— Eric Suh
fuente

+1 gracias. a menudo obtengo algunos resultados "cansados", por ejemplo, una distribución normal obtiene un valor p más alto que uno de Poisson, donde lambda es relativamente pequeño (por lo que, por lo que parece, el normal y el poisson no son similares en absoluto)

— David B

66

¡¡404 NO ENCONTRADO!!

— Rodrigo

5

Para una distribución de Poisson, la media es igual a la varianza. Si su media muestral es muy diferente de su varianza muestral, probablemente no tenga datos de Poisson. La prueba de dispersión también mencionada aquí es una formalización de esa noción.

Si su varianza es mucho mayor que su media, como suele ser el caso, puede intentar una distribución binomial negativa a continuación.

— John D. Cook
fuente

55

Entonces, si la media es la misma que la varianza, ¿podría concluir que los datos fueron de Poisson? ¡Apenas!

— PeterR

Cierto. Necesario pero no suficiente.

— John D. Cook, el

2

Puede dibujar una sola figura en la que las frecuencias observadas y esperadas se dibujan una al lado de la otra. Si las distribuciones son muy diferentes y también tiene una relación media-varianza mayor que uno, entonces un buen candidato es el binomio negativo. Lea la sección Distribuciones de frecuencia de The R Book. Se trata de un problema muy similar.

— Brani
fuente

1

Creo que el punto principal es el que plantea sidmaestro ... ¿la configuración experimental o el mecanismo de generación de datos respaldan la premisa de que los datos podrían surgir de una distribución de Poisson?

No soy un gran admirador de las pruebas de suposiciones de distribución, ya que esas pruebas generalmente no son muy útiles. Lo que me parece más útil es hacer suposiciones de distribución o modelo que sean flexibles y razonablemente robustas a las desviaciones del modelo, generalmente con fines de inferencia. En mi experiencia, no es tan común ver media = varianza, por lo que a menudo el modelo binomial negativo parece más apropiado e incluye el Poisson como un caso especial.

Otro punto que es importante para las pruebas de distribución, si eso es lo que quiere hacer, es asegurarse de que no haya estratos involucrados que hagan que su distribución observada sea una mezcla de otras distribuciones. Las distribuciones individuales específicas del estrato pueden aparecer como Poisson, pero la mezcla observada puede no serlo. Una situación análoga a partir de la regresión solo supone que la distribución condicional de Y | X se distribuye normalmente, y no realmente la distribución de Y en sí.

— Abhijit
fuente

Su último punto sobre la regresión solo sería cierto si X es aleatorio. Si X es fijo, Y también sería normal. ¿no?

Sí, esto es cierto, pero para los problemas de regresión general (a diferencia de los problemas anova o diseñados), X realmente no es fijo, sino que son observaciones del proceso subyacente. Sin embargo, para el caso de Poisson, el punto sigue siendo válido, ya que las mezclas de Poisson no son necesariamente Poisson.

— Abhijit

0

Otra forma de probar esto es con un gráfico cuantil cuantil. En R, hay qqplot. Esto traza directamente sus valores contra una distribución normal con media y sd similares

— Peter Flom - Restablece a Monica
fuente