Suma genérica de variables aleatorias gamma

35

He leído que la suma de variables aleatorias Gamma con el mismo parámetro de escala es otra variable aleatoria Gamma. También he visto el artículo de Moschopoulos que describe un método para la suma de un conjunto general de variables aleatorias Gamma. He intentado implementar el método de Moschopoulos pero aún no he tenido éxito.

¿Cómo se ve la suma de un conjunto general de variables aleatorias Gamma? Para concretar esta pregunta, ¿qué aspecto tiene?

$\text{Gamma}(3,1) + \text{Gamma}(4,2) + \text{Gamma}(5,1)$

Si los parámetros anteriores no son particularmente reveladores, sugiera otros.

— OSE
fuente

44

Se ha publicado una solución explícita para la suma de dos distribuciones Gamma en stats.stackexchange.com/a/252192 .

— whuber

Un ejemplo especial de esto, donde todas las distribuciones Gamma tienen el parámetro de forma 1 (es decir, son exponenciales) se llama distribución hipoexponencial (familia) . Para el caso de solo dos distribuciones exponenciales, también hay una fórmula explícita en stats.stackexchange.com/questions/412849 .

— Whuber

37

Primero, combine las sumas que tengan el mismo factor de escala : una $\Gamma(n, \beta)$ más una variable $\Gamma(m,\beta)$ forman una $\Gamma(n+m,\beta)$ .

Luego, observe que la función característica (cf) de $\Gamma(n, \beta)$ es $(1-i \beta t)^{-n}$ , de donde el cf de una suma de estas distribuciones es el producto

\prod_{j} \frac{1}{(1 - i β_{j} t)^{n_{j}}} .

$\prod_{j} \frac{1}{(1-i \beta_j t)^{n_j}}.$

Cuando son todos integrales, este producto se expande como una fracción parcial en una combinación lineal de donde son enteros entre y . En el ejemplo con (de la suma de y $n_j$ $(1-i \beta_j t)^{-\nu}$ $\nu$ $1$ $n_j$ $\beta_1 = 1, n_1=8$ $\Gamma(3,1)$ ) y encontramos $\Gamma(5,1)$ $\beta_2 = 2, n_2=4$

\frac{1}{(1 - i t)^{8}} \frac{1}{(1 - 2 i t)^{4}} = \frac{1}{(x + i)^{8}} - \frac{8 i}{(x + i)^{7}} - \frac{40}{(x + i)^{6}} + \frac{160 i}{(x + i)^{5}} + \frac{560}{(x + i)^{4}} - \frac{1792 i}{(x + i)^{3}} - \frac{5376}{(x + i)^{2}} + \frac{15360 i}{x + i} + \frac{256}{(2 x + i)^{4}} + \frac{2048 i}{(2 x + i)^{3}} - \frac{9216}{(2 x + i)^{2}} - \frac{30720 i}{2 x + i} .

$\frac{1}{(1-i t)^{8}}\frac{1}{(1- 2i t)^{4}} = \\ \frac{1}{(x+i)^8}-\frac{8 i}{(x+i)^7}-\frac{40}{(x+i)^6}+\frac{160 i}{(x+i)^5}+\frac{560}{(x+i)^4}-\frac{1792 i}{(x+i)^3}\\-\frac{5376}{(x+i)^2}+\frac{15360 i}{x+i}+\frac{256}{(2 x+i)^4}+\frac{2048 i}{(2 x+i)^3}-\frac{9216}{(2 x+i)^2}-\frac{30720 i}{2 x+i}.$

La inversa de tomar el cf es la Transformada inversa de Fourier, que es lineal : eso significa que podemos aplicarla término por término. Cada término es reconocible como un múltiplo de cf de una distribución Gamma y, por lo tanto, se invierte fácilmente para obtener el PDF . En el ejemplo obtenemos

\frac{e^{- t} t^{7}}{5040} + \frac{1}{90} e^{- t} t^{6} + \frac{1}{3} e^{- t} t^{5} + \frac{20}{3} e^{- t} t^{4} + \frac{8}{3} e^{- \frac{t}{2}} t^{3} + \frac{280}{3} e^{- t} t^{3} - 128 e^{- \frac{t}{2}} t^{2} + 896 e^{- t} t^{2} + 2304 e^{- \frac{t}{2}} t + 5376 e^{- t} t - 15360 e^{- \frac{t}{2}} + 15360 e^{- t}

$\frac{e^{-t} t^7}{5040}+\frac{1}{90} e^{-t} t^6+\frac{1}{3} e^{-t} t^5+\frac{20}{3} e^{-t} t^4+\frac{8}{3} e^{-\frac{t}{2}} t^3+\frac{280}{3} e^{-t} t^3\\ -128 e^{-\frac{t}{2}} t^2+896 e^{-t} t^2+2304 e^{-\frac{t}{2}} t+5376 e^{-t} t-15360 e^{-\frac{t}{2}}+15360 e^{-t}$

para el PDF de la suma.

Esta es una mezcla finita de distribuciones Gamma que tienen factores de escala iguales a los de la suma y factores de forma menores o iguales a los de la suma. Excepto en casos especiales (donde puede ocurrir alguna cancelación), el número de términos viene dado por el parámetro de forma total (asumiendo que todos los son diferentes). $n_1 + n_2 + \cdots$ $n_j$

$10^4$ $\Gamma(8,1)$ $\Gamma(4,2)$ $10^4$

Figura

$n_i$

— whuber
fuente

2

f (x) = \sum_{i = 1}^{n} a_{i} f_{i} (x)

$f(x) = \sum_{i=1}^n a_i f_i(x)$

a_{i} > 0

$a_i > 0$

\sum_{i} a_{i} = 1

$\sum_i a_i = 1$

a_{i}

$a_i$

a_{i}

$a_i$ . Sin embargo, en la suma anterior, algunos de los coeficientes son negativos y, por lo tanto, la interpretación estándar de la mezcla no se aplica.

— Dilip Sarwate

@Dilip Ese es un buen punto. Lo que hace que este caso sea interesante es que, aunque algunos de los coeficientes pueden ser negativos, esta combinación sigue siendo una distribución válida (por su propia construcción).

— whuber

¿Se puede extender este enfoque para tener en cuenta la adición de variables dependientes? En particular, quiero sumar 6 distribuciones con cada una teniendo alguna correlación con las otras.

— machacador

11

Mostraré otra posible solución, que es bastante aplicable, y con el software R de hoy, bastante fácil de implementar. Esa es la aproximación de la densidad del punto de silla, que debería ser más conocida.

$k$ $\theta$

$X$

M (s) = E e^{s X}

$M(s) = E e^{sX}$

s

$s$

K (s) = \log M (s)

$K(s) = \log M(s)$

E X = K^{'} (0), Var (X) = K^{″} (0)

$E X = K'(0), \text{Var} (X) = K''(0)$ . La ecuación de punto de silla es que define implícitamente como una función de (que debe estar en el rango de ). Escribimos esta función implícitamente definida como . Tenga en cuenta que la ecuación saddlepoint siempre tiene exactamente una solución, porque la función acumulativa es convexa.

K^{'} (\hat{s}) = x

$K'(\hat{s}) = x$

s

$s$

x

$x$

X

$X$

\hat{s} (x)

$\hat{s}(x)$

Entonces, la aproximación del punto de silla de montar a la densidad de viene dada por No se garantiza que esta función de densidad aproximada se integre a 1, por lo que es la aproximación del punto de silla no normalizada. Podríamos integrarlo numéricamente y renormalizar para obtener una mejor aproximación. Pero se garantiza que esta aproximación no sea negativa. $f$ $X$

\hat{f} (x) = \frac{1}{\sqrt{2 π K^{″} (\hat{s})}} \exp (K (\hat{s}) - \hat{s} x)

$\hat{f}(x) = \frac1{\sqrt{2\pi K''(\hat{s})}} \exp(K(\hat{s}) - \hat{s} x)$

$X_1, X_2, \dots, X_n$ $X_i$ $(k_i, \theta_i)$

K (s) = - \sum_{i = 1}^{n} k_{i} \ln (1 - θ_{i} s)

$K(s) = -\sum_{i=1}^n k_i \ln(1-\theta_i s)$

s < 1 / max (θ_{1}, θ_{2}, \dots, θ_{n})

$s<1/\max(\theta_1, \theta_2, \dots, \theta_n)$

K^{'} (s) = \sum_{i = 1}^{n} \frac{k_{i} θ_{i}}{1 - θ_{i} s}

$K'(s) = \sum_{i=1}^n \frac{k_i \theta_i}{1-\theta_i s}$

K^{″} (s) = \sum_{i = 1}^{n} \frac{k_{i} θ_{i}^{2}}{(1 - θ_{i} s)^{2}} .

$K''(s) = \sum_{i=1}^n \frac{k_i \theta_i^2}{(1-\theta_i s)^2}.$ R

n = 3

$n=3$

k = (1, 2, 3)

$k=(1,2,3)$

θ = (1, 2, 3)

$\theta=(1,2,3)$ . Tenga en cuenta que el siguiente Rcódigo usa un nuevo argumento en la función uniroot introducida en R 3.1, por lo que no se ejecutará en R's anteriores.

shape <- 1:3 #ki
scale <- 1:3 # thetai
# For this case,  we get expectation=14,  variance=36
make_cumgenfun  <-  function(shape, scale) {
      # we return list(shape, scale, K, K', K'')
      n  <-  length(shape)
      m <-   length(scale)
      stopifnot( n == m, shape > 0, scale > 0 )
      return( list( shape=shape,  scale=scale, 
                    Vectorize(function(s) {-sum(shape * log(1-scale * s) ) }),
                    Vectorize(function(s) {sum((shape*scale)/(1-s*scale))}) ,
                    Vectorize(function(s) { sum(shape*scale*scale/(1-s*scale)) }))    )
}

solve_speq  <-  function(x, cumgenfun) {
          # Returns saddle point!
          shape <- cumgenfun[[1]]
          scale <- cumgenfun[[2]]
          Kd  <-   cumgenfun[[4]]
          uniroot(function(s) Kd(s)-x,lower=-100,
                  upper = 0.3333, 
                  extendInt = "upX")$root
}

make_fhat <-  function(shape,  scale) {
    cgf1  <-  make_cumgenfun(shape, scale)
    K  <-  cgf1[[3]]
    Kd <-  cgf1[[4]]
    Kdd <- cgf1[[5]]
    # Function finding fhat for one specific x:
    fhat0  <- function(x) {
        # Solve saddlepoint equation:
        s  <-  solve_speq(x, cgf1)
        # Calculating saddlepoint density value:
        (1/sqrt(2*pi*Kdd(s)))*exp(K(s)-s*x)
    }
    # Returning a vectorized version:
    return(Vectorize(fhat0))
} #end make_fhat

 fhat  <-  make_fhat(shape, scale)
plot(fhat, from=0.01,  to=40, col="red", main="unnormalized saddlepoint approximation\nto sum of three gamma variables")

resultando en la siguiente trama: ingrese la descripción de la imagen aquí

Dejaré la aproximación normalizada del punto de silla como ejercicio.

— kjetil b halvorsen
fuente

1

Esto es interesante, pero no puedo hacer que su Rcódigo funcione para comparar la aproximación con la respuesta exacta. Cualquier intento de invocación fhatgenera errores, aparentemente en el uso de uniroot.

— whuber

3

¿Cuál es tu versión R? Los códigos usan un nuevo argumento para uniroot, extendInt, que se introdujo en R versión 3.1 Si su R es anterior, puede intentar eliminar eso (y extender el intervalo dado para uniroot). ¡Pero eso hará que el código sea menos robusto!

— kjetil b halvorsen

10

La ecuación de Welch-Satterthwaite podría usarse para dar una respuesta aproximada en forma de distribución gamma. Esto tiene la buena propiedad de permitirnos tratar las distribuciones gamma como cerradas (aproximadamente) bajo adición. Esta es la aproximación en la prueba t de Welch comúnmente utilizada.

(La distribución gamma se puede ver como una distribución de chi-cuadrado a escala, y permite un parámetro de forma no entero).

He adaptado la aproximación a la parametrización de la distribución gamma: $k, \theta$

k_{s u m} = \frac{(\sum_{i} θ_{i} k_{i})^{2}}{\sum_{i} θ_{i}^{2} k_{i}}

$k_{sum} = { (\sum_i \theta_i k_i)^2 \over \sum_i \theta_i^2 k_i }$

θ_{s u m} = \frac{\sum θ_{i} k_{i}}{k_{s u m}}

$\theta_{sum} = { { \sum \theta_i k_i } \over k_{sum} }$

Sea , $k=(3,4,5)$ $\theta=(1,2,1)$

Entonces obtenemos aproximadamente Gamma (10.666 ..., 1.5)

Vemos que el parámetro de forma se ha totalizado más o menos, pero un poco menos porque los parámetros de escala de entrada difieren. es tal que la suma tiene el valor medio correcto. $k$ $\theta_i$ $\theta$

— Paul Harrison
fuente

6

Una solución exacta a la convolución (es decir, la suma) de distribuciones gamma se da como la ecuación. (1) en el pdf vinculado por DiSalvo . Como esto es un poco largo, tomará algún tiempo copiarlo aquí. Para solo dos distribuciones gamma, su suma exacta en forma cerrada se especifica mediante la ecuación. (2) de DiSalvo y sin pesas por la ecuación. (5) de Wesolowski et al. , que también aparece en el sitio de CV como respuesta a esa pregunta. Es decir, $n$

G D C (a, b, α, β; τ) = {\begin{array}{cc} \frac{b^{a} β^{α}}{Γ (a + α)} e^{- b τ} {τ^{a + α}}^{- 1}_{1} F_{1} [α, a + α, (b - β) τ], & τ > 0 \\ 0, τ \leq 0 \end{array},

$\mathrm{G}\mathrm{D}\mathrm{C}\left(\mathrm{a}\kern0.1em ,\mathrm{b}\kern0.1em ,\alpha, \beta; \tau \right)=\left\{\begin{array}{cc}\hfill \frac{{\mathrm{b}}^{\mathrm{a}}{\beta}^{\alpha }}{\Gamma \left(\mathrm{a}+\alpha \right)}{e}^{-\mathrm{b}\tau }{\tau^{\mathrm{a}+\alpha}}^{-1}{}_1F_1\left[\alpha, \mathrm{a}+\alpha, \left(\mathrm{b}-\beta \right)\tau \right],\hfill & \hfill \tau >0\hfill \\ {}\hfill \kern2em 0\kern6.6em ,\hfill \kern5.4em \tau \kern0.30em \le \kern0.30em 0\hfill \end{array}\right.,$ donde la notación en las preguntas anteriores; , aquí. Es decir, y son constantes de velocidad aquí y no escalares de tiempo.

G a m m a (a, b) \to Γ (a, 1 / b)

$Gamma(a,b) \rightarrow \Gamma(a,1/b)$

b

$b$

β

$\beta$

— Carl
fuente