Bondad de ajuste para datos discretos: mejor enfoque

Los datos: a los fines de esta pregunta / comunicación, podemos suponer que los datos se ven como rnbinom(1000,size=0.1,prob=0.01)en R, lo que genera una muestra aleatoria de 1,000 observaciones de una distribución binomial negativa (con una size=0.1probabilidad de éxito prob=0.01). Esta es la parametrización donde la variable aleatoria representa el número de fallas antes del sizenúmero de éxitos. La cola es larga y 1,000 observaciones no son muchos datos.

El problema: me han dado algunos datos (entero en {1,2, ....}) [ver arriba] (1,500 puntos de datos) y me han pedido que encuentre la distribución y las estimaciones de "mejor ajuste" de cualquier parámetro. No sé nada más sobre los datos. Soy consciente de que esta no es una muestra muy grande para datos con una cola larga. Más datos es una posibilidad.

Lo que he hecho: he considerado usar una prueba de razón de probabilidad ajustando dos distribuciones diferentes a los datos, pero no creo que esto se aplique (como en, no puedo determinar los valores p críticos apropiados) a menos que las dos distribuciones estén anidadas ...

Luego consideré usar una prueba de Kolmogorov-Smirnov (ajustada para datos discretos) pero, de todos modos, en R, se quejó de que no podía calcular un valor p para "datos con vínculos".

¿Cuál es la mejor manera para mí de probar / determinar el ajuste de diferentes distribuciones en este contexto? Aquí hay algunas otras cosas que he considerado:

Solicite (lotes) más datos. ¿Pero esto ayudará? ¿Podré usar resultados asintóticos, por ejemplo?
¿Considera algún esquema bootstrap / re-sample / monte-carlo? Si es así, ¿hay una referencia estándar que pueda / deba leer para aprender cómo hacer esto correctamente? Gracias

hypothesis-testing goodness-of-fit

— Rusan Kax
fuente

Si entendí su pregunta correctamente, solo necesita ajustar los datos a la distribución . En este caso, podría usar una de las funciones en los paquetes R, como fitdistrfrom MASSpackage, que usa la estimación de máxima verosimilitud (MLE) y admite distribuciones discretas , incluidos binomial y Poisson .

Luego, como segundo paso, deberá realizar una (o más ) pruebas de bondad de ajuste (GoF) para validar los resultados . Las pruebas de Kolmogorov-Smirnov , Anderson-Darling y (AFAIK) Lilliefors no son aplicables a distribuciones discretas. Sin embargo, afortunadamente, la prueba de GoF de chi-cuadrado es aplicable tanto a distribuciones continuas como discretas y en R es una cuestión de stats::chisq.test()función de llamada .

Alternativamente , como sus datos representan una distribución discreta, puede usar el vcdpaquete y su función goodfit(). Esta función se puede usar como reemplazo de la prueba estándar de GoF chisq.test()o, mejor aún, como un flujo de trabajo completo ( ajuste de distribución y prueba de GoF ). Para la opción de flujo de trabajo completo , solo use la configuración predeterminada y no especifique parámetros par(puede especificar size, si type = "nbinomial"). Los parámetros se estimarán utilizando la máxima verosimilitud o el mínimo chi-cuadrado (puede seleccionar el método). Los resultados se pueden obtener llamando a la summary()función.

— Aleksandr Blekh
fuente

De hecho, existen pruebas discretas de KS: stat.yale.edu/~jay/EmersonMaterials/DiscreteGOF.pdf

— Astrid

@Astrid Nice! Gracias por tu actualización y feliz año nuevo!

— Aleksandr Blekh

Cuatro años es mejor tarde que nunca: D ¡Feliz año nuevo para ti también!

— Astrid

@Astrid "... más vale tarde que nunca" , no puedo discutir eso. :-) ¡Gracias!

— Aleksandr Blekh