Tengo datos con un pico doble que estoy tratando de modelar, y hay suficiente superposición entre los picos que no puedo tratarlos de forma independiente. Un histograma de los datos podría verse así:
He creado dos modelos para esto: uno usa dos distribuciones de Poisson y el otro usa dos distribuciones binomiales negativas (para tener en cuenta la sobredispersión). ¿Cuál es la forma adecuada de saber qué modelo se ajusta a los datos con mayor precisión?
Mi pensamiento inicial es que podría usar una prueba de Kolmogorov-Smirnov para comparar cada modelo con los datos, luego hacer una prueba de razón de probabilidad para ver si uno se ajusta significativamente mejor. ¿Esto tiene sentido? Si es así, no estoy exactamente seguro de cómo realizar la prueba de razón de probabilidad. ¿Es apropiado el chi-cuadrado y cuántos grados de libertad tengo?
Si ayuda, algunos códigos R (muy simplificados) para los modelos podrían verse así:
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
Editar: Aquí hay una imagen que puede explicar los datos y las distribuciones que estoy ajustando mejor. A partir de la visualización, queda totalmente claro que el segundo modelo (que usa el dist binomial negativo para dar cuenta de la sobredispersión) se ajusta mejor. Sin embargo, me gustaría mostrar esto cuantitativamente.
(rojo - datos, verde - modelo)