Inferencia bayesiana en una suma de variables aleatorias de valor real iid

Deje , , ..., ser iid RV's con rango pero distribución desconocida. (Estoy de acuerdo con suponer que la distribución es continua, etc., si es necesario). $X_1$ $X_2$ $X_n$ $[0,1]$

Defina . $S_n = X_1 + \cdots + X_n$

Me dan y pregunto: ¿Qué puedo inferir, de manera bayesiana, acerca de ? $S_k$ $S_n$

Es decir, se me da la suma de una muestra de tamaño de los RV, y me gustaría saber qué puedo inferir sobre la distribución de la suma de todos los RV, utilizando un enfoque bayesiano (y suponiendo antecedentes razonables sobre el distribución). $k$

Si el soporte fuera lugar de , entonces este problema está bien estudiado y (con antecedentes uniformes) obtienes distribuciones de compuestos beta-binomiales para la distribución inferida en . Pero no estoy seguro de cómo abordarlo con como rango ... $\{0,1\}$ $[0,1]$ $S_n$ $[0,1]$

Divulgación completa : ya publiqué esto en MathOverflow , pero me dijeron que sería mejor publicarlo aquí, así que esta es una nueva publicación.

bayesian inference

— Ronald L Rivest
fuente

Estaba a punto de escribirle un comentario en MO, pero en su lugar lo escribiré aquí. Si cree que la pregunta se adapta mejor a este foro, puede marcarla en MO y solicitar que se cierre.

— cardenal

Quisiera alguna aclaración de su última declaración. Si el rango es , cualquier distribución que ponga masa en valores que no en para la distribución de parece tonta, así que me pregunto si yo ' He entendido su puntería correctamente. (Quizás una referencia sería útil.)

{0, 1}

$\{0,1\}$

{0, 1, \dots, n}

$\{0,1,\ldots,n\}$

S_{k}

$S_k$

— cardenal

¿Qué he entendido mal?

— cardenal

¿Está interesado en los no paramétricos bayesianos? Si no desea hacer suposiciones sobre la distribución de las 's, necesita un marco no paramétrico. Pero entonces, dado solo no puedes decir mucho ...

X_{k}

$X_k$

S_{k}

$S_k$

— Xi'an

Estas son buenas observaciones; Lamento que el problema estuviera un poco confuso. Estaba pensando que n es muy grande en comparación con , y que el posterior en reflejaría directamente el posterior en los parámetros. Quizás, en lugar de , debería haber usado , y haber pedido el posterior en cuando va al infinito. ¿Tiene sentido ahora?

k

$k$

S_{n}

$S_n$

S_{n}

$S_n$

S_{n}^{'} = S_{n} / n

$S'_n = S_n/n$

lim S_{n}^{'}

$\lim S'_n$

n

$n$

— Ronald L Rivest

Respuestas:

Considere el siguiente análisis bayesiano no paramétrico.

Defina y deje que sean los subconjuntos Borel de . Sea una medida finita distinta de cero . $\mathscr{X}=[0,1]$ $\mathscr{B}$ $\mathscr{X}$ $\alpha$ $(\mathscr{X},\mathscr{B})$

Sea un proceso de Dirichlet con el parámetro , y suponga que son condicionalmente iid, dado que , de modo que , por cada . $Q$ $\alpha$ $X_1,\dots,X_n$ $Q=q$ $\mu_{X_1}(B)=P\{X_1\in B\} = q(B)$ $B\in\mathscr{B}$

Por las propiedades del proceso de Dirichlet, sabemos que, dados , la distribución predictiva de una observación futura como es la medida sobre definido por $X_1,\dots,X_k$ $X_{k+1}$ $\beta$ $(\mathscr{X},\mathscr{B})$

β (B) = \frac{1}{α (X) + k} (α (B) + \sum_{i = 1}^{k} I_{B} (X_{i})) .

$\beta(B) = \frac{1}{\alpha(\mathscr{X})+k} \left( \alpha(B) + \sum_{i=1}^k I_B(X_i)\right) \, .$

Ahora, defina como el campo sigma generado por , y use la mensurabilidad y la simetría de los 's para obtener casi con seguridad. $\mathscr{F}_k$ $X_1,\dots,X_k$ $X_i$

E [S_{n} ∣ F_{k}] = S_{k} + E [\sum_{i = k + 1}^{n} X_{i} | F_{k}] = S_{k} + (n - k) E [X_{k + 1} ∣ F_{k}],

$E\left[ S_n \mid \mathscr{F}_k \right] = S_k + E\left[ \sum_{i=k+1}^n X_i \,\Bigg\vert\, \mathscr{F}_k \right] = S_k + (n-k) E\left[ X_{k+1} \mid \mathscr{F}_k \right] \, ,$

Para encontrar una respuesta explícita, suponga que es . Al definir , tenemos casi seguramente (la distribución conjunta de ), donde . En el límite "no informativo" de , la expectativa anterior se reduce a , lo que significa que, en este caso, su suposición posterior de es solo veces la media de la primera $\alpha(\cdot)/\alpha(\mathscr{X})$ $U[0,1]$ $c=\alpha(\mathscr{X})>0$

E [S_{n} ∣ X_{1} = x_{1}, \dots, X_{k} = x_{k}] = s_{k} + \frac{n - k}{c + k} (\frac{c}{2} + s_{k}),

$E\left[ S_n \mid X_1=x_1,\dots,X_k=x_k \right] = s_k + \frac{n-k}{c+k}\left(\frac{c}{2}+s_k\right) \, ,$

[μ_{X_{1}, \dots, X_{k}}]

$[\mu_{X_1,\dots,X_k}]$

X_{1}, \dots, X_{k}

$X_1,\dots,X_k$

s_{k} = x_{1} + \dots + x_{k}

$s_k=x_1+\dots+x_k$

c \to 0

$c\to 0$

n \cdot (s_{k} / k)

$n\cdot (s_k/k)$

S_{n}

$S_n$

n

$n$

k

$k$ observaciones, lo que parece lo más intuitivo posible.

— zen
fuente

¿Es posible obtener también una buena expresión para en este modelo?

Var [S_{n} | S_{k}]

$\text{Var}[S_n|S_k]$

— Cyan

Perdone la falta de teoría de la medida y los abusos de notación en el siguiente ...

Como se trata de inferencia bayesiana, debe haber algo anterior sobre lo desconocido en el problema, que en este caso es la distribución de , un parámetro de dimensión infinita que toma valores en el conjunto de distribuciones en (llámelo ). La distribución de datos converge a una distribución normal, por lo que si es lo suficientemente grande ( teorema de Berry-Esseen ) podemos simplemente aplicar esa normalidad como una aproximación. Además, si la aproximación es precisa, el único aspecto del que importa en términos prácticos es el previo inducido en . $X_1$ $[0, 1]$ $\pi$ $S_k|\pi$ $k$ $p(\pi)$ $(\text{E}_\pi(X_1),\text{Var}_\pi(X_1))=(\mu,\sigma^2)$

Ahora hacemos predicciones bayesianas estándar y ponemos las densidades aproximadas. ( está sujeto a la misma aproximación que .) $S_n$ $S_k$

$p(S_n|S_k) = \int p(\pi|S_k)p(S_n|\pi,S_k)d\pi$

$p(S_n|S_k) = \int \frac{p(\pi)p(S_k|\pi)}{p(S_k)}p(S_n|\pi,S_k)d\pi$

$p(S_n|S_k) \approx \frac{\int p(\mu,\sigma^2)\text{N}(S_k|k\mu,k\sigma^2)\text{N}(S_n|(n-k)\mu + S_k, (n-k)\sigma^2) d(\mu,\sigma^2)}{\int p(\mu,\sigma^2)\text{N}(S_k|k\mu,k\sigma^2) d(\mu,\sigma^2)}$

Para los límites de la integral, , obviamente; Creo que ? $\mu \in [0, 1]$ $\sigma^2 \in [0,\frac{1}{4}]$

Más adelante: no,Esto es bueno: los valores permitidos de dependen de , por lo que la información en los datos sobre es relevante para . $\sigma^2 \in [0,\mu(1-\mu)].$ $\sigma^2$ $\mu$ $\mu$ $\sigma^2$

— Cian
fuente

No entiendo tu párrafo principal. En primer lugar, la convergencia a una normalidad es solo después de un cambio y una reescala de y esto no se debe al teorema de Berry - Esseen (que es un teorema sobre la tasa de convergencia a la normalidad), sino el CLT. Además, el cambio y la reescala dependerán del parámetro fijo particular. ¿Ha visto un caso en el que tiene, digamos, un punto anterior de tres puntos distribuido uniformemente en ?

S_{n}

$S_n$

{0, 1 / 2, 1}

$\{0,1/2,1\}$

— cardenal

Permítanme aclarar que cuando escribo "normal" no me refiero a normal estándar. Por lo tanto, el cambio y la reescala cambian la media y la varianza, pero la convergencia sigue siendo algún elemento en la familia de distribuciones normales. Me refería al enlace al teorema de Berry-Esseen para hacer referencia a la frase "si es lo suficientemente grande"; su ubicación actual es un error de cortar y pegar, y lo cambiaré. No entiendo su pregunta sobre el parámetro fijo, ¿puede aclarar la pregunta?

k

$k$

— Cyan

Re: pregunta del cardenal. Tenga en cuenta que lo anterior es una distribución de distribuciones con soporte en . Si tomo su pregunta literalmente, está preguntando acerca de un previo que tenga soporte en tres variables aleatorias constantes , lo cual es trivial de analizar. Pero como escribió en otro comentario "Si el rango es , cualquier distribución que ponga masa en valores que no en para la distribución de parece una tontería", creo que usted ' solicitando distribuciones discretas de datos. La respuesta corta es: "no, no es tonto". Continúa ...

[0, 1]

$[0, 1]$

0, 1

${0,1}$

0, 1, \dots, n

${0,1,…,n}$

S_{k}

$S_k$

— Cyan

Está bien aproximar una distribución discreta con una distribución continua .

— Cyan

Creo que hay varios problemas aquí: (a) El enunciado de la pregunta podría usar un poco de refinamiento para aclarar el objetivo final, (b) la pregunta, los comentarios y las respuestas, lamentablemente, se han confundido a través de errores tipográficos involuntarios, errores de cálculo y múltiples hilos de conversación y (c) mis comentarios mencionados anteriormente parecen estar un poco fuera de contexto. Mi declaración con respecto a ( tipográfico: debería haber sido ) se refiere a la distribución posterior de dado . Si conozco , cualquier distribución posterior que no ponga toda su masa allí debería ser inadmisible.

S_{k}

$S_k$

S_{n}

$S_n$

S_{n}

$S_n$

S_{k}

$S_k$

S_{n} \in {S_{k}, \dots, n}

$S_n \in \{S_k,\ldots,n\}$

— cardenal

Deje que cada pertenezca a la familia de distribución y tenga parámetros . $X_i$ $F$ $\theta$

Dado, , tenemos una distribución en : $S_k$ $\theta$

\begin{aligned} Pr (θ ∣ S_{k}) & = \frac{1}{Z} Pr (θ) Pr (S_{k} ∣ θ) \end{aligned}

$\begin{align} \Pr(\theta \mid S_k) &= \frac1Z \Pr(\theta)\Pr(S_k \mid \theta) \end{align}$

Y, nuestra distribución en , es $S_n$ $n \ge k$

\begin{aligned} Pr (S_{n} = i ∣ S_{k}) & = Pr (S_{n - k} = i - S_{k} | S_{k}) \\ = \int Pr (S_{n - k} = i - S_{k} | θ) Pr (θ ∣ S_{k}) d θ \end{aligned}

$\begin{align} \Pr(S_n = i \mid S_k) &= \Pr(S_{n-k} = i - S_k | S_k) \\ &= \int \Pr(S_{n-k} = i - S_k | \theta)\Pr(\theta \mid S_k)d\theta \\ \end{align}$

(y de manera similar para ) $n < k$

Ambas ecuaciones tienen formas agradables cuando es una distribución en la familia exponencial que se cierra bajo la suma de elementos iid como la distribución normal, la distribución gamma y la distribución binomial. También funciona para sus casos especiales como la distribución exponencial y la distribución de Bernoulli. $F$

Puede ser interesante considerar que es la familia de distribuciones binomiales escaladas (por ) con conocidos "ensayos" , y tomando el límite a medida que va al infinito. $F$ $\frac1n$ $n$ $n$

— Neil G
fuente