Métodos para ajustar distribuciones discretas
Hay tres métodos principales * utilizados para ajustar (estimar los parámetros de) distribuciones discretas.
Esto encuentra los valores de los parámetros que brindan la mejor oportunidad de suministrar su muestra (dados los otros supuestos, como independencia, parámetros constantes, etc.)
Esto encuentra los valores de los parámetros que hacen que los primeros momentos de población coincidan con sus momentos de muestra. A menudo es bastante fácil de hacer, y en muchos casos produce estimadores bastante razonables. A veces también se usa para proporcionar valores iniciales a las rutinas de ML.
Esto minimiza la bondad de chi-cuadrado del estadístico de ajuste sobre la distribución discreta, aunque a veces con conjuntos de datos más grandes, las categorías finales pueden combinarse por conveniencia. A menudo funciona bastante bien, e incluso podría decirse que tiene algunas ventajas sobre el NM en situaciones particulares, pero en general debe repetirse a la convergencia, en cuyo caso la mayoría de las personas tienden a preferir el NM.
Los dos primeros métodos también se usan para distribuciones continuas; el tercero generalmente no se usa en ese caso.
Estos de ninguna manera comprenden una lista exhaustiva, y sería bastante posible estimar los parámetros minimizando la estadística KS, por ejemplo, e incluso (si ajusta la discreción), obtener una región de consonancia conjunta , si fuera tan inclinado Como está trabajando en R, la estimación de ML es bastante fácil de lograr para el binomio negativo. Si su muestra estuviera dentro x
, es tan simple como library(MASS);fitdistr (x,"negative binomial")
:
> library(MASS)
> x <- rnegbin(100,7,3)
> fitdistr (x,"negative binomial")
size mu
3.6200839 6.3701156
(0.8033929) (0.4192836)
Esas son las estimaciones de parámetros y sus errores estándar (asintóticos).
En el caso de la distribución de Poisson, MLE y MoM estiman el parámetro de Poisson en la media muestral.
Si desea ver ejemplos, debe publicar algunos recuentos reales. Tenga en cuenta que su histograma se ha realizado con los contenedores seleccionados para que las categorías 0 y 1 se combinen y no tengamos los recuentos sin procesar.
Por lo que puedo adivinar, sus datos son aproximadamente los siguientes:
Count: 0&1 2 3 4 5 6 >6
Frequency: 311 197 74 15 3 1 0
Pero los números grandes serán inciertos (depende en gran medida de la precisión con que los recuentos bajos están representados por los recuentos de píxeles de sus alturas de barra) y podría ser un múltiplo de esos números, como el doble de esos números (los recuentos sin procesar afectan los errores estándar, por lo que importa si se trata de esos valores o el doble de grande)
La combinación de los dos primeros grupos hace que sea un poco incómodo (es posible hacerlo, pero menos sencillo si combina algunas categorías. Hay mucha información en esos dos primeros grupos, por lo que es mejor no dejar que el histograma predeterminado los agrupe) )
* Por supuesto, son posibles otros métodos de ajuste de distribuciones discretas (uno podría igualar cuantiles o minimizar otras estadísticas de bondad de ajuste, por ejemplo). Los que menciono parecen ser los más comunes.