¿Cuál es la distribución del promedio redondeado hacia abajo de las variables aleatorias de Poisson?

20

Si tengo variables aleatorias que son Poisson distribuidas con parámetros , ¿cuál es la distribución de (es decir, el piso entero del promedio)? $X_1,X_2,\ldots,X_n$ $\lambda_1, \lambda_2,\ldots, \lambda_n$ $Y=\left\lfloor\frac{\sum_{i=1}^n X_i}{n}\right\rfloor$

Una suma de Poissons también es Poisson, pero no tengo suficiente confianza en las estadísticas para determinar si es lo mismo para el caso anterior.

poisson-distribution average

— Lubo Antonov
fuente

@amoeba Revertí tu edición del título porque esto no es realmente "redondeo". La edición anterior de Cardinal, aunque no es tan precisa, parece preferible porque es precisa.

— whuber

@whuber De acuerdo. Estaba dudando al hacer esta edición, pero decidí incluir la palabra "redondeo" porque actualmente el título no insinúa la dificultad principal aquí (y por lo tanto es engañoso). El término apropiado debería ser "redondeando hacia abajo", así que quizás "¿Cuál es la distribución de un promedio de variables aleatorias de Poisson, redondeadas hacia abajo ?" - Aunque admito que suena un poco engorroso.

— ameba dice Reinstate Monica

@amoeba ¡Ediciones adicionales son bienvenidas!

— whuber

27

Una generalización de la pregunta pide la distribución de $Y = \lfloor X/m \rfloor$ cuando la distribución de $X$ es conocida y apoyada en los números naturales. (En la pregunta, $X$ tiene una distribución de Poisson de parámetro $\lambda = \lambda_1 + \lambda_2 + \cdots + \lambda_n$ y $m=n$ ).

La distribución de se determina fácilmente por la distribución de , cuya probabilidad de generación de función (PGF) puede determinarse en términos de la PGF de . Aquí hay un resumen de la derivación. $Y$ $mY$ $X$

$p(x) = p_0 + p_1 x + \cdots + p_n x^n + \cdots$ $X$ $p_n = \Pr(X=n)$ $mY$ $X$ $q$

\begin{aligned} q (x) & = & (p_{0} + p_{1} + \dots + p_{m - 1}) + (p_{m} + p_{m + 1} + \dots + p_{2 m - 1}) x^{m} + \dots + \\ (p_{n m} + p_{n m + 1} + \dots + p_{(n + 1) m - 1}) x^{n m} + \dots . \end{aligned}

$\eqalign{q(x) &=& \left(p_0 + p_1 + \cdots + p_{m-1}\right) + \left(p_m + p_{m+1} + \cdots + p_{2m-1}\right)x^m + \cdots + \\&&\left(p_{nm} + p_{nm+1} + \cdots + p_{(n+1)m-1}\right)x^{nm} + \cdots.}$

Porque esto converge absolutamente para , podemos reorganizar los términos en una suma de piezas de la forma $|x| \le 1$

D_{m, t} p (x) = p_{t} + p_{t + m} x^{m} + \dots + p_{t + n m} x^{n m} + \dots

$D_{m,t}p(x) = p_t + p_{t+m}x^m + \cdots + p_{t + nm}x^{nm} + \cdots$

para . La serie de potencias de las funciones consiste en cada término de la serie de comienza con : esto a veces se denomina diezmado de . Las búsquedas de Google actualmente no muestran mucha información útil sobre decimaciones, así que para completar, aquí hay una derivación de una fórmula. $t=0, 1, \ldots, m-1$ $x^t D_{m,t}p$ $m^\text{th}$ $p$ $t^\text{th}$ $p$

Sea cualquier primitiva raíz de la unidad; por ejemplo, tome . Luego se deduce de y que $\omega$ $m^\text{th}$ $\omega = \exp(2 i \pi / m)$ $\omega^m=1$ $\sum_{j=0}^{m-1}\omega^j = 0$

x^{t} D_{m, t} p (x) = \frac{1}{m} \sum_{j = 0}^{m - 1} ω^{t j} p (x / ω^{j}) .

$x^t D_{m,t}p(x) = \frac{1}{m}\sum_{j=0}^{m-1} \omega^{t j} p(x/\omega^j).$

Para ver esto, tenga en cuenta que el operador es lineal, por lo que es suficiente verificar la fórmula sobre la base . Aplicando el lado derecho a da $x^t D_{m,t}$ $\{1, x, x^2, \ldots, x^n, \ldots \}$ $x^n$

x^{t} D_{m, t} [x^{n}] = \frac{1}{m} \sum_{j = 0}^{m - 1} ω^{t j} x^{n} ω^{- n j} = \frac{x^{n}}{m} \sum_{j = 0}^{m - 1} ω^{(t - n) j .}

$x^t D_{m,t}[x^n] = \frac{1}{m}\sum_{j=0}^{m-1} \omega^{t j} x^n \omega^{-nj}= \frac{x^n}{m}\sum_{j=0}^{m-1} \omega^{(t-n) j.}$

Cuando y difieren en un múltiplo de , cada término en la suma es igual a y se obtiene . De lo contrario, los términos pasan por los poderes de y estos suman cero. De donde este operador conserva todos los poderes de congruentes con módulo y mata a todos los demás: es precisamente la proyección deseada. $t$ $n$ $m$ $1$ $x^n$ $\omega^{t-n}$ $x$ $t$ $m$

Sigue fácilmente una fórmula para cambiando el orden de suma y reconociendo una de las sumas como geométrica, escribiéndola así en forma cerrada: $q$

\begin{aligned} q (x) & = \sum_{t = 0}^{m - 1} (D_{m, t} [p]) (x) \\ = \sum_{t = 0}^{m - 1} x^{- t} \frac{1}{m} \sum_{j = 0}^{m - 1} ω^{t j} p (ω^{- j} x) \\ = \frac{1}{m} \sum_{j = 0}^{m - 1} p (ω^{- j} x) \sum_{t = 0}^{m - 1} {(ω^{j} / x)}^{t} \\ = \frac{x (1 - x^{- m})}{m} \sum_{j = 0}^{m - 1} \frac{p (ω^{- j} x)}{x - ω^{j}} . \end{aligned}

$\eqalign{ q(x) &= \sum_{t=0}^{m-1} (D_{m,t}[p])(x) \\ &= \sum_{t=0}^{m-1} x^{-t} \frac{1}{m} \sum_{j=0}^{m-1} \omega^{t j} p(\omega^{-j}x ) \\ &= \frac{1}{m} \sum_{j=0}^{m-1} p(\omega^{-j}x) \sum_{t=0}^{m-1} \left(\omega^j/x\right)^t \\ &= \frac{x(1-x^{-m})}{m} \sum_{j=0}^{m-1} \frac{p(\omega^{-j}x)}{x-\omega^j}. }$

Por ejemplo, el pgf de una distribución de Poisson del parámetro es . Con , y el pgf de será $\lambda$ $p(x) = \exp(\lambda(x-1))$ $m=2$ $\omega=-1$ $2Y$

\begin{aligned} q (x) & = \frac{x (1 - x^{- 2})}{2} \sum_{j = 0}^{2 - 1} \frac{p ((- 1)^{- j} x)}{x - (- 1)^{j}} \\ = \frac{x - 1 / x}{2} (\frac{\exp (λ (x - 1))}{x - 1} + \frac{\exp (λ (- x - 1))}{x + 1}) \\ = \exp (- λ) (\frac{\sinh (λ x)}{x} + \cosh (λ x)) . \end{aligned}

$\eqalign{ q(x) &= \frac{x(1-x^{-2})}{2} \sum_{j=0}^{2-1} \frac{p((-1)^{-j}x)}{x-(-1)^j} \\ &= \frac{x-1/x}{2} \left(\frac{\exp(\lambda(x-1))}{x-1} + \frac{\exp(\lambda(-x-1))}{x+1}\right) \\ &= \exp(-\lambda) \left(\frac{\sinh (\lambda x)}{x}+\cosh (\lambda x)\right). }$

Un uso de este enfoque es calcular momentos de y . El valor de la derivada del pgf evaluado en es el momento factorial . El momento es una combinación lineal de los primeros momentos factoriales. Usando estas observaciones, encontramos, por ejemplo, que para una distribuida por Poisson , su media (que es el primer momento factorial) es igual a , la media de es igual a , y la media de es igual a $X$ $mY$ $k^\text{th}$ $x=1$ $k^\text{th}$ $k^\text{th}$ $k$ $X$ $\lambda$ $2\lfloor(X/2)\rfloor$ $\lambda- \frac{1}{2} + \frac{1}{2} e^{-2\lambda}$ $3\lfloor(X/3)\rfloor$ $\lambda -1+e^{-3 \lambda /2} \left(\frac{\sin \left(\frac{\sqrt{3} \lambda }{2}\right)}{\sqrt{3}}+\cos \left(\frac{\sqrt{3} \lambda}{2}\right)\right)$ :

Medio

Las medias para se muestran en azul, rojo y amarillo, respectivamente, como funciones de : asintóticamente, la media cae en comparación con la media original de Poisson. $m=1,2,3$ $\lambda$ $(m-1)/2$

Se pueden obtener fórmulas similares para las variaciones. (Se vuelven desordenados a medida que aumenta y, por lo tanto, se omiten. Una cosa que establecen definitivamente es que cuando no hay múltiplo de es Poisson: no tiene la igualdad característica de media y varianza) Aquí hay una gráfica de las variaciones en función de para : $m$ $m \gt 1$ $Y$ $\lambda$ $m=1,2,3$

Variaciones

Es interesante que para valores mayores de las variaciones aumentan . Intuitivamente, esto se debe a dos fenómenos competitivos: la función de piso efectivamente agrupa grupos de valores que originalmente eran distintos; Esto debe hacer que la varianza disminuya. Al mismo tiempo, como hemos visto, los medios también están cambiando (porque cada bin está representado por su valor más pequeño); esto debe hacer que se vuelva a agregar un término igual al cuadrado de la diferencia de medias. El aumento en la varianza para grandes hace mayor con valores mayores de . $\lambda$ $\lambda$ $m$

El comportamiento de la varianza de con es sorprendentemente complejo. Terminemos con una simulación rápida (in ) que muestre lo que puede hacer. Las gráficas muestran la diferencia entre la varianza de y la varianza de para Poisson distribuido con varios valores de varían de a . En todos los casos, las gráficas parecen haber alcanzado sus valores asintóticos a la derecha. $mY$ $m$ R $m\lfloor X/m \rfloor$ $X$ $X$ $\lambda$ $1$ $5000$

set.seed(17)
par(mfrow=c(3,4))
temp <- sapply(c(1,2,5,10,20,50,100,200,500,1000,2000,5000), function(lambda) {
  x <- rpois(20000, lambda)
  v <- sapply(1:floor(lambda + 4*sqrt(lambda)), 
              function(m) var(floor(x/m)*m) - var(x))
  plot(v, type="l", xlab="", ylab="Increased variance", 
       main=toString(lambda), cex.main=.85, col="Blue", lwd=2)
})

Parcelas

— whuber
fuente

1

¡Esta es una respuesta genial! Probablemente me llevará algún tiempo digerir :)

— Lubo Antonov

1

y es por eso que dije "Usar la función de piso ... también afecta la varianza ligeramente, aunque de una manera más complicada".

— Henry

1

+1 Gracias por la respuesta detallada. Ciertamente, hay formas complicadas en que la función de piso afecta la varianza.

— Dilip Sarwate

1

+1 para simulación en R con código --- este es un muy buen ejemplo de uso sapply()para simulación. Gracias.

— Assad Ebrahim

1

@Roberto Gracias. Sin embargo, la distinción entre " " y " ", siendo puramente una cuestión de notación, es completamente trivial y no tiene importancia matemática ni estadística.

x

$x$

s

$s$

— whuber

12

Como dice Michael Chernick, si las variables aleatorias individuales son independientes, entonces la suma es Poisson con parámetro (media y varianza) que podría llamar . $\sum_{i=1}^{n} \lambda_i$ $\lambda$

Dividir entre reduce la media a y la varianza por lo que la varianza será menor que la distribución de Poisson equivalente. Como dice Michael, no todos los valores serán enteros. $n$ $\lambda / n$ $\lambda / n^2$

El uso de la función de piso reduce la media ligeramente, aproximadamente , y también afecta la varianza ligeramente, aunque de una manera más complicada. Aunque tiene valores enteros, la varianza seguirá siendo sustancialmente menor que la media y, por lo tanto, tendrá una distribución más estrecha que el Poisson. $\frac12 -\frac{1}{2n}$

— Enrique
fuente

gracias, no es un resultado que pueda usar, pero al menos lo sé ahora :)

— Lubo Antonov

Si las lambdas no son todas iguales, ¿no debería ser el resultado más como un binomio negativo que un Poisson (ignorando la parte no entera por el momento)? ¿Que me estoy perdiendo aqui?

— gung - Restablecer Monica

2

@gung: Te estás perdiendo el punto de que el individuo solo afecta la distribución a través de su suma y cuántos hay. No importa qué valores particulares tomen: dará el mismo resultado que .

λ_{i}

$\lambda_i$

λ_{1} = 1, λ_{2} = 2, λ_{3} = 9

$\lambda_1=1, \lambda_2=2, \lambda_3=9$

λ_{1} = 4, λ_{2} = 4, λ_{3} = 4

$\lambda_1=4, \lambda_2=4, \lambda_3=4$

— Henry

10

La función de masa de probabilidad del promedio de variables aleatorias independientes de Poisson se puede escribir explícitamente, aunque la respuesta podría no serle de gran ayuda. Como Michael Chernick señaló en los comentarios sobre su propia respuesta, la suma de las variables aleatorias independientes de Poisson con los parámetros respectivos es una variable aleatoria de Poisson con el parámetro . Por lo tanto, tanto, es una variable aleatoria que toma el valor con probabilidad $n$ $\sum_i X_i$ $X_i$ $\lambda_i$ $\lambda = \sum_i \lambda_i$

P {\sum_{i = 1}^{n} X_{i} = k} = \exp (- λ) \frac{λ^{k}}{k!}, k = 0, 1, 2, \dots,

$P\left\{ \sum_{i=1}^n X_i= k\right\} = \exp(-\lambda)\frac{\lambda^k}{k!}, ~~ k = 0, 1, 2, \ldots,$

\hat{Y} = n^{- 1} \sum_{i = 1}^{n} X_{i}

$\hat{Y} = n^{-1} \sum_{i=1}^n X_i$

k / n

$k/n$

\exp (- λ) \frac{λ^{k}}{k!}

$\exp(-\lambda)\frac{\lambda^k}{k!}$ . Tenga en cuenta que no es una variable aleatoria de valores enteros (aunque toma valores racionales uniformemente espaciados). Se deduce fácilmente que es una variable aleatoria de valor entero que toma el valor con probabilidad Esto no es

\hat{Y}

$\hat{Y}$

Y = ⌊ \hat{Y} ⌋

$Y = \lfloor \hat{Y} \rfloor$

m

$m$

P {Y = m} = P {⌊ \frac{1}{n} \sum_{i = 1}^{n} X_{i} ⌋ = m} = \exp (- λ) \sum_{i = 0}^{n - 1} \frac{λ^{m n + i}}{(m n + i)!}, m = 0, 1, 2, \dots,

$P\{Y = m\} = P\left\{\left\lfloor \frac{1}{n}\sum_{i=1}^n X_i \right\rfloor = m\right\} = \exp(-\lambda)\sum_{i=0}^{n-1}\frac{\lambda^{mn+i}}{(mn+i)!}, ~~ m = 0, 1, 2, \ldots,$ La función de masa de probabilidad de una variable aleatoria de Poisson. Fórmulas para la varianza media y pueden ser escritos usando esta función de masa de probabilidad, pero no lo hacen, obviamente, conducen a buenas respuestas simples en términos de y . Los valores aproximados se pueden obtener según lo señalado por Henry.

λ

$\lambda$

n

$n$

— Dilip Sarwate
fuente

+1 Sin embargo, hay fórmulas cerradas para los momentos de

Y

$Y$

— whuber

¡Gracias por la formulación rigurosa! ¿Alguna posibilidad de que le guste echar un vistazo a las fórmulas de media y varianza?

— Lubo Antonov

2

Quizás @whuber publicará un enlace (o una cita de un libro o artículo de revista) donde se pueden encontrar las fórmulas de forma cerrada para los momentos, o escribirá una respuesta dando las fórmulas en sí, con o sin una derivación detallada.

— Dilip Sarwate

@Dilip Mi reclamo sobre fórmulas cerradas no se basó en nada publicado, por lo que publiqué una respuesta por separado que indica lo que tenía en mente y cómo podría usarse para comprender esta situación.

— whuber

3

Y no será Poisson. Tenga en cuenta que las variables aleatorias de Poisson toman valores enteros no negativos. Una vez que divide por una constante, crea una variable aleatoria que puede tener valores no enteros. Seguirá teniendo la forma del Poisson. Es solo que las probabilidades discretas pueden ocurrir en puntos no enteros.

— Michael R. Chernick
fuente

Eso tiene sentido, pero ¿qué pasa si es realmente discreto, por ejemplo, el piso del promedio? ¿Eso lo convertiría en Poisson?

Y

$Y$

— Lubo Antonov

@ lucas1024 No lo creo, pero no estoy seguro.

— Michael R. Chernick

La forma de la suma es definitivamente Poisson, ¿verdad? su media y varianza son idénticas también. ¿No hay algo así como un Poisson escalado? Y es solo una variable de Poisson (la suma) que se escala por

\sum X_{i}

$\sum X_i$

n^{- 1}

$n^{-1}$

— JDav

@JDav La suma es Poisson con el parámetro de velocidad igual a la suma de los parámetros de velocidad individuales. Pero el OP se escala en 1 / ny luego quiere truncar el número entero justo debajo de Y. No sé exactamente qué le hace eso a la distribución.

— Michael R. Chernick

Mi comentario anterior suponía independencia.

— Michael R. Chernick