Respuestas:
En primer lugar, mi consejo es que debe abstenerse de probar una distribución de Poisson tal como se hace con los datos. Sugiero que primero debe hacer una teoría de por qué la distribución de Poisson debe ajustarse a un conjunto de datos o fenómeno particular.
Una vez que haya establecido esto, la siguiente pregunta es si la distribución es homogénea o no. Esto significa si todas las partes de los datos son manejadas por la misma distribución de Poisson o si hay una variación en esto basada en algún aspecto como el tiempo o el espacio. Una vez que se haya convencido de estos aspectos, pruebe las siguientes tres pruebas:
busque estos y los encontrará fácilmente en la red.
Aquí hay una secuencia de comandos R que pueden ser útiles. Siéntase libre de comentar o editar si detecta algún error.
set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.
hist(x.poi,main="Poisson distribution")
lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies
freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]] ## vector of emprical frequencies
freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies
acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index
h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")
#Perform the chi-square goodness of fit test
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")
Supongo que la forma más fácil es hacer una prueba de bondad de ajuste chi-cuadrado .
De hecho, aquí hay un buen applet de Java que hará exactamente eso.
Puede usar la dispersión (relación de varianza a la media) como estadística de prueba, ya que el Poisson debería dar una dispersión de 1. Aquí hay un enlace a cómo usarla como prueba modelo.
Para una distribución de Poisson, la media es igual a la varianza. Si su media muestral es muy diferente de su varianza muestral, probablemente no tenga datos de Poisson. La prueba de dispersión también mencionada aquí es una formalización de esa noción.
Si su varianza es mucho mayor que su media, como suele ser el caso, puede intentar una distribución binomial negativa a continuación.
Puede dibujar una sola figura en la que las frecuencias observadas y esperadas se dibujan una al lado de la otra. Si las distribuciones son muy diferentes y también tiene una relación media-varianza mayor que uno, entonces un buen candidato es el binomio negativo. Lea la sección Distribuciones de frecuencia de The R Book
. Se trata de un problema muy similar.
Creo que el punto principal es el que plantea sidmaestro ... ¿la configuración experimental o el mecanismo de generación de datos respaldan la premisa de que los datos podrían surgir de una distribución de Poisson?
No soy un gran admirador de las pruebas de suposiciones de distribución, ya que esas pruebas generalmente no son muy útiles. Lo que me parece más útil es hacer suposiciones de distribución o modelo que sean flexibles y razonablemente robustas a las desviaciones del modelo, generalmente con fines de inferencia. En mi experiencia, no es tan común ver media = varianza, por lo que a menudo el modelo binomial negativo parece más apropiado e incluye el Poisson como un caso especial.
Otro punto que es importante para las pruebas de distribución, si eso es lo que quiere hacer, es asegurarse de que no haya estratos involucrados que hagan que su distribución observada sea una mezcla de otras distribuciones. Las distribuciones individuales específicas del estrato pueden aparecer como Poisson, pero la mezcla observada puede no serlo. Una situación análoga a partir de la regresión solo supone que la distribución condicional de Y | X se distribuye normalmente, y no realmente la distribución de Y en sí.
Otra forma de probar esto es con un gráfico cuantil cuantil. En R, hay qqplot. Esto traza directamente sus valores contra una distribución normal con media y sd similares