¿Cómo ajusta una distribución de Poisson a los datos de la tabla?

Me dieron una mesa de $x=(0,1,2,3,4,5,6)$ y $y=(3062,587,284,103,33,4,2)$ , que son tales que el número de $x_i$ le dice a una cantidad de niños que todos $y_i$ s tener.

Me piden que ajuste una distribución de Poisson a esto.

¿Qué significa ajustar una distribución de Poisson a esto?

Aquí, p.8:
http://www.stats.ox.ac.uk/~marchini/teaching/L5/L5.notes.pdf

se dice que adaptar Poisson implica calcular $P(X=x)$ para cada $x$ . ¿Pero de dónde viene el $y$ s ir? Es apropiado calcular el $P(X=x)$ s?

— mavavilj
fuente

Se le pide que ajuste un modelo de regresión de Poisson a estos datos. Esto debería ayudar: onlinecourses.science.psu.edu/stat504/node/168 . Además, agregue la etiqueta de autoaprendizaje a esta pregunta de tarea.

— StatsStudent

Por "ajustar la distribución a los datos" queremos decir que alguna distribución (es decir, función matemática) se usa como modelo , que puede usarse para aproximar la distribución empírica de los datos que tiene. Si está ajustando la distribución a los datos, debe inferir los parámetros de distribución a partir de los datos. Puede hacerlo utilizando algún software que lo haga automáticamente (por ejemplo, fitdistrplusen R), o calculándolo a mano a partir de sus datos, por ejemplo, utilizando la máxima probabilidad (consulte la entrada relevante en Wikipedia sobre la distribución de Poisson ).

En el gráfico a continuación, puede ver sus datos trazados con una distribución de Poisson ajustada. Como puede ver, la línea no encaja perfectamente, ya que es solo una aproximación.

Entre otros métodos, uno de los enfoques para este problema es utilizar la máxima probabilidad . Recuerde que la probabilidad es una función de los parámetros para los datos fijos y al maximizar esta función podemos encontrar los parámetros "más probables" dados los datos que tenemos, es decir

L (λ | x_{1}, \dots, x_{n}) = \prod_{i} f (x_{i} | λ)

$L(\lambda|x_1,\dots,x_n) = \prod_i f(x_i|\lambda)$

donde en tu caso $f$ es la función de masa de probabilidad de Poisson. La forma directa y numérica de encontrar el apropiado $\lambda$ sería utilizar el algoritmo de optimización. Para esto, primero define la función de probabilidad y luego le pide al algoritmo que encuentre el punto donde la función alcanza su máximo:

# negative log-likelihood (since this algorithm looks for minimum)
llik <- function(lambda) -sum(dpois(x, lambda, log = TRUE)*y)
opt.fit <- optimize(llik, c(0, 10))$minimum

Puedes notar algo extraño sobre este código: multiplico dpois()por y. Los datos que tiene se proporcionan en forma de tabla, donde para cada valor de $x_i$ tenemos condes acompañantes $y_i$ , mientras que la función de probabilidad se define en términos de datos sin procesar, en lugar de tales tablas. Puede volver a crear los datos sin procesar a partir de estos valores repitiendo cada uno de los $x_i$ es exactamente $y_i$ veces (es decir, rep(x, y)en R) y usar esto como entrada para su software estadístico, pero podría adoptar un enfoque más inteligente. La probabilidad es un producto de $f(x_i|\lambda)$ . Multiplicando $f(x_i|\lambda)$ para idéntico $x_i$ es exactamente $y_i$ veces es lo mismo que tomar $y_i$ -th poder de la misma: $f(x_i|\lambda)^{y_i}$ . Aquí estamos maximizando la probabilidad de registro (vea aquí por qué tomamos registro ), entonces $\prod_i f(x_i|\lambda)^{y_i}$ se convierte en: $\sum_i \log f(x_i|\lambda) \times y_i$ . Así es como obtuvimos la función de probabilidad para los datos tabulares.

Sin embargo, hay una forma más sencilla de hacerlo. Nosotros sabemos que la media empírica de $x$ 's es el estimador de máxima verosimilitud de $\lambda$ (es decir, nos permite estimar dicho valor de $\lambda$ que maximiza la probabilidad), por lo que, en lugar de utilizar un software de optimización, simplemente podemos calcular la media. Dado que tiene datos en forma de una tabla con recuentos, la forma más directa de hacerlo sería simplemente usar la media ponderada de $x_i$ es donde $y_i$ Se usan como pesas.

mx <- sum(x*(y/sum(y)))

Esto conduce a resultados idénticos como si calculara la media aritmética a partir de los datos sin procesar. Tanto maximizando la probabilidad usando el algoritmo de optimización como tomando la ventaja promedio para obtener casi exactamente los mismos resultados:

> mx
[1] 0.3995092
> opt.fit
[1] 0.3995127

Entonces $y$ No se mencionan en ninguna parte de sus notas, ya que se crean artificialmente como una forma de almacenar estos datos en forma agregada (como una tabla), en lugar de enumerar todos los $4075$ crudo $x$ 's. Como se muestra arriba, puede aprovechar tener datos en este formato.

Los procedimientos anteriores le permiten encontrar el "mejor ajuste" $\lambda$ y así es como se ajusta la distribución a los datos: al encontrar dichos parámetros de distribución, eso hace que se ajuste a los datos empíricos.

Comentaste que todavía no está claro por qué $y_i$ Se consideran pesos. La media aritmética se puede considerar como un caso especial de media ponderada donde todos los pesos son iguales e iguales a $1/N$ :

\frac{x_{1} + \dots + x_{n}}{N} = \frac{1}{N} (x_{1} + \dots + x_{n}) = \frac{1}{N} x_{1} + \dots + \frac{1}{N} x_{n}

$\frac{x_1 + \dots + x_n}{N} = \frac{1}{N} \left( x_1 + \dots + x_n \right) = \frac{1}{N}x_1 + \dots + \frac{1}{N}x_n$

Ahora piense en cómo se almacenan sus datos. $x_6 = 5$ y $y_6 = 4$ significa que tienes cuatro cinco $x_6 = \{5,5,5,5\}$ , $x_7 = 6$ y $y_7 = 2$ medio $x_7 = \{6,6\}$ etc. Cuando calculas la media, primero debes sumarlas, entonces: $5+5+5+5 = 5 \times 4 = x_6 \times y_6$ . Esto lleva al uso de recuentos como ponderaciones para la media ponderada que da exactamente lo mismo que la media aritmética con datos sin procesar

\frac{x_{1} y_{1} + \dots + x_{n} y_{n}}{y_{1} + \dots + y_{n}} = \frac{x_{1} y_{1}}{N} + \dots + \frac{x_{n} y_{n}}{N} = \overset{y_{1} times}{\overset{⏞}{\frac{x_{1}}{N} + \dots + \frac{x_{1}}{N}}} + \dots + \overset{y_{n} times}{\overset{⏞}{\frac{x_{n}}{N} + \dots + \frac{x_{n}}{N}}}

$\frac{x_1 y_1 + \dots + x_n y_n}{y_1 + \dots + y_n} = \\ \frac{x_1 y_1}{N} + \dots + \frac{x_n y_n}{N} = \\ \overbrace{ \frac{x_1}{N} + \dots + \frac{x_1}{N} }^{y_1 ~ \text{times}} + \dots + \overbrace{ \frac{x_n}{N} + \dots + \frac{x_n}{N} }^{y_n ~ \text{times}}$

dónde $N = \sum_i y_i$ . La misma idea se aplicó a la función de probabilidad que fue ponderada por los recuentos. Lo que podría ser engañoso aquí es que en algunos casos usamos $x_i$ para denotar $i$ -th valor observado de $X$ , mientras que en tu caso $x_i$ es un valor específico de $X$ eso fue observado $y_i$ veces. Como se dijo antes, esta es solo una forma alternativa de almacenar los mismos datos.

— Tim
fuente

Pero, ¿cómo se calculan esos? No entiendo la conexión entre Poisson, x e y. supongo

x

$x$ es lo que uno se conecta al Poisson PMF como

k

$k$ , pero ¿cómo se relaciona el PMF de Poisson con el

y

$y$ s?

— mavavilj

Entonces, ajustar un modelo significa calcular el (empírico)

P (X = x_{i})

$P(X=x_i)$ para cada

x_{i}

$x_i$ ?

— mavavilj

@mavavilj no, significa encontrar dicho valor de los parámetros de distribución (en este caso de

λ

$\lambda$ ) que hace que la función de distribución se ajuste mejor a la distribución empírica (ver primer párrafo). El último párrafo trata sobre cómo se almacenan sus datos. Si algo aún no está claro, por favor comente.

— Tim

¿Cuál es la razonabilidad de inferir

y

$y$ s como pesos para la media ponderada (para obtener el MLE)?

— mavavilj

Todavía no estoy claro sobre el razonamiento que lleva a calcular la media ponderada. ¿Por qué son los

y

$y$ s considerado como pesas?

— mavavilj

Supongo que la respuesta es encontrar la media de los datos, que será la lambda del proceso de Poisson. Dado que los datos vienen en la tabla de frecuencia, encuentre el valor esperado / promedio ponderado, que como se explicó anteriormente, es el mismo que el promedio aritmético de los datos sin procesar.

— Aravot
fuente