Por "ajustar la distribución a los datos" queremos decir que alguna distribución (es decir, función matemática) se usa como modelo , que puede usarse para aproximar la distribución empírica de los datos que tiene. Si está ajustando la distribución a los datos, debe inferir los parámetros de distribución a partir de los datos. Puede hacerlo utilizando algún software que lo haga automáticamente (por ejemplo, fitdistrplus
en R), o calculándolo a mano a partir de sus datos, por ejemplo, utilizando la máxima probabilidad (consulte la entrada relevante en Wikipedia sobre la distribución de Poisson ).
En el gráfico a continuación, puede ver sus datos trazados con una distribución de Poisson ajustada. Como puede ver, la línea no encaja perfectamente, ya que es solo una aproximación.
Entre otros métodos, uno de los enfoques para este problema es utilizar la máxima probabilidad . Recuerde que la probabilidad es una función de los parámetros para los datos fijos y al maximizar esta función podemos encontrar los parámetros "más probables" dados los datos que tenemos, es decir
L ( λ |X1, ... ,Xnorte) =∏yoF(XyoEl | λ)
donde en tu caso Fes la función de masa de probabilidad de Poisson. La forma directa y numérica de encontrar el apropiadoλsería utilizar el algoritmo de optimización. Para esto, primero define la función de probabilidad y luego le pide al algoritmo que encuentre el punto donde la función alcanza su máximo:
# negative log-likelihood (since this algorithm looks for minimum)
llik <- function(lambda) -sum(dpois(x, lambda, log = TRUE)*y)
opt.fit <- optimize(llik, c(0, 10))$minimum
Puedes notar algo extraño sobre este código: multiplico dpois()
por y
. Los datos que tiene se proporcionan en forma de tabla, donde para cada valor dexi tenemos condes acompañantes yi, mientras que la función de probabilidad se define en términos de datos sin procesar, en lugar de tales tablas. Puede volver a crear los datos sin procesar a partir de estos valores repitiendo cada uno de losxies exactamente yiveces (es decir, rep(x, y)
en R) y usar esto como entrada para su software estadístico, pero podría adoptar un enfoque más inteligente. La probabilidad es un producto def(xi|λ). Multiplicandof(xi|λ) para idéntico xies exactamente yi veces es lo mismo que tomar yi-th poder de la misma: f(xi|λ)yi. Aquí estamos maximizando la probabilidad de registro (vea aquí por qué tomamos registro ), entonces∏if(xi|λ)yi se convierte en: ∑ilogf(xi|λ)×yi. Así es como obtuvimos la función de probabilidad para los datos tabulares.
Sin embargo, hay una forma más sencilla de hacerlo. Nosotros sabemos que la media empírica dex's es el estimador de máxima verosimilitud de λ (es decir, nos permite estimar dicho valor de λque maximiza la probabilidad), por lo que, en lugar de utilizar un software de optimización, simplemente podemos calcular la media. Dado que tiene datos en forma de una tabla con recuentos, la forma más directa de hacerlo sería simplemente usar la media ponderada dexies donde yiSe usan como pesas.
mx <- sum(x*(y/sum(y)))
Esto conduce a resultados idénticos como si calculara la media aritmética a partir de los datos sin procesar. Tanto maximizando la probabilidad usando el algoritmo de optimización como tomando la ventaja promedio para obtener casi exactamente los mismos resultados:
> mx
[1] 0.3995092
> opt.fit
[1] 0.3995127
Entonces yNo se mencionan en ninguna parte de sus notas, ya que se crean artificialmente como una forma de almacenar estos datos en forma agregada (como una tabla), en lugar de enumerar todos los4075 crudo x's. Como se muestra arriba, puede aprovechar tener datos en este formato.
Los procedimientos anteriores le permiten encontrar el "mejor ajuste" λ y así es como se ajusta la distribución a los datos: al encontrar dichos parámetros de distribución, eso hace que se ajuste a los datos empíricos.
Comentaste que todavía no está claro por qué yiSe consideran pesos. La media aritmética se puede considerar como un caso especial de media ponderada donde todos los pesos son iguales e iguales a1/N:
x1+⋯+xnN=1N(x1+⋯+xn)=1Nx1+⋯+1Nxn
Ahora piense en cómo se almacenan sus datos. x6=5 y y6=4 significa que tienes cuatro cinco x6={5,5,5,5}, x7=6 y y7=2 medio x7={6,6} etc. Cuando calculas la media, primero debes sumarlas, entonces: 5+5+5+5=5×4=x6×y6. Esto lleva al uso de recuentos como ponderaciones para la media ponderada que da exactamente lo mismo que la media aritmética con datos sin procesar
x1y1+⋯+xnyny1+⋯+yn=x1y1N+⋯+xnynN=x1N+⋯+x1Ny1 times+⋯+xnN+⋯+xnNyn times
dónde N=∑iyi. La misma idea se aplicó a la función de probabilidad que fue ponderada por los recuentos. Lo que podría ser engañoso aquí es que en algunos casos usamosxi para denotar i-th valor observado de X, mientras que en tu caso xies un valor específico deX eso fue observado yiveces. Como se dijo antes, esta es solo una forma alternativa de almacenar los mismos datos.