¿Cómo probar si una muestra de datos se ajusta a la familia de distribución Gamma?


13

Tengo una muestra de datos que se generó a partir de una variable aleatoria continua X. Y a partir del histograma que dibujo usando R, supongo que tal vez la distribución de X obedece a una cierta distribución Gamma. Pero no conozco los parámetros exactos de esta distribución Gamma.

Mi pregunta es cómo probar si la distribución de X pertenece a una familia de distribución Gamma. Existen algunas pruebas de bondad de ajuste, como la prueba de Kolmogorov-Smirnov, la prueba de Anderson-Darling, etc., pero una de las restricciones al usar estas pruebas es que los parámetros de la distribución teórica deben conocerse de antemano. ¿Alguien podría decirme cómo resolver este problema?


Quizás me estoy perdiendo algo, pero si ya conoce una prueba para probar el ajuste de la distribución y todo lo que necesita saber son los valores de la distribución teórica, entonces simplemente podría usar los estimadores de máxima probabilidad de los parámetros de la gamma distribución en sus datos para obtener estimaciones de los parámetros. Luego, podría usar esas estimaciones para definir la distribución teórica en su prueba.
David

David, gracias por tu respuesta. La respuesta también es lo que he estado pensando, pero no estoy seguro de si hay algunas teorías que puedan respaldar esta idea, ¿podría responderla por mí?
user8363

Si usa R, puede estar interesado en echar un vistazo al paquete fitdistrplus , que tiene facilidades para hacer este tipo de cosas.
gung - Restablece a Monica

Respuestas:


8

Creo que la pregunta pide una prueba estadística precisa, no una comparación de histograma. Cuando se usa la prueba de Kolmogorov-Smirnov con parámetros estimados , la distribución de las estadísticas de prueba bajo nulo depende de la distribución probada, en oposición al caso sin parámetro estimado. Por ejemplo, usando (en R)

x <- rnorm(100)
ks.test(x, "pnorm", mean=mean(x), sd=sd(x))

lleva a

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.0701, p-value = 0.7096
alternative hypothesis: two-sided

mientras nos ponemos

> ks.test(x, "pnorm")

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.1294, p-value = 0.07022
alternative hypothesis: two-sided 

para la misma muestra x. El nivel de significancia o el valor p, por lo tanto, debe determinarse mediante la simulación de Monte Carlo bajo nulo, produciendo la distribución de las estadísticas de Kolmogorov-Smirnov a partir de muestras simuladas bajo la distribución estimada (con una ligera aproximación en el resultado dado que la muestra observada proviene de otra distribución, incluso debajo de la nula).


1
(+1) No entiendo por qué es correcto simular muestras bajo la distribución estimada. Pensé que necesitábamos un previo para los parámetros, y una muestra de todas las distribuciones posibles ... ¿Puedes explicar un poco más?
Elvis

1
Xi'an, tu respuesta es exactamente lo que me preocupaba. Usted quiere decir que "Cuando se usa la prueba de Kolmogorov-Smirnov con parámetros estimados, la distribución de las estadísticas de prueba bajo nulo depende de la distribución probada". Sin embargo, no conocemos la distribución de X, más precisamente, no conocemos el parámetro de la distribución de X bajo la hipótesis nula, de ahí la distribución del estadístico de prueba, por lo tanto, usamos monte carlo. ¿Tendrías otras formas de resolverlo sin usar monte carlo para obtener el valor P? Gracias
user8363

Para tener en cuenta el hecho de que "la muestra observada proviene de otra distribución incluso por debajo de la nula", ¿no sería apropiado arrancar la muestra y volver a estimar los parámetros en cada réplica?
Elvis

1
@Elvis (1): se trata de estadísticas clásicas, no una resolución bayesiana del problema de la bondad del ajuste. Para las distribuciones con parámetros de escala de ubicación, la elección de los parámetros utilizados para simular las muestras simuladas no importa.
Xi'an

1
@Elvis (2): ¡Otra vez, algo que acabo de discutir con mis alumnos! ¡Bootstrap ayudaría a evaluar el comportamiento de la distancia Kolmogorov-Smirnov bajo la verdadera distribución de los datos, no bajo la nula! El principio de Fisher-Neyman-Pearson es que lo que importa es el comportamiento de la distancia de Kolmogorov-Smirnov bajo el nulo, de modo que se rechaza si la distancia observada es demasiado extrema con esta distribución bajo el nulo.
Xi'an

4

Calcule los MLE de los parámetros asumiendo una distribución gamma para sus datos y compare la densidad teórica con el histograma de sus datos. Si los dos son muy diferentes, la distribución gamma es una mala aproximación de sus datos. Para una prueba formal, podría calcular, por ejemplo, el estadístico de prueba de Kolmogorov-Smirnoff que compara la distribución gamma de mejor ajuste con la distribución empírica y prueba de significación.


3
+1, esta es una respuesta sólida. Sin embargo, sugeriría examinar un diagrama qq contra la gamma teórica en lugar de un histograma; será más fácil evaluar las desviaciones.
gung - Restablece a Monica

1
El problema es que la prueba KS supone que la distribución teórica se dará de antemano, no se estima a partir de los datos. Xi'an (parcialmente) respondió a ese punto ...
Elvis

¿quiere decir que primero usamos esta muestra de datos para obtener un estimador MLS y usamos el valor del estimador MLS en la distribución Gamma, y ​​luego comparamos los datos con la distribución Gamma (con el parámetro estimado) usando la prueba KS?
user8363

Elvis, ¿podría decirme cómo resolver el problema que cuando el parámetro de la distribución teórica es desconocido y necesita estimarse? En este caso, ¿cómo se puede usar la prueba KS para obtener un juicio relativamente preciso de la hipótesis, gracias!
user8363

1
@Elvis: No creo que la derivación exacta sea posible en el caso de la distribución gamma. El cdf en sí no está disponible en forma cerrada. Además, el hecho de que el parámetro de forma no sea escala ni ubicación significa que hay una distribución diferente para cada valor del parámetro de forma ...
Xi'an
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.