Bootstrapping vs Bayesian Bootstrapping conceptualmente?

Tengo problemas para comprender qué es un proceso Bayesian Bootstrapping y cómo eso diferiría de su rutina de arranque normal. Y si alguien pudiera ofrecer una revisión intuitiva / conceptual y una comparación de ambos, sería genial.

Pongamos un ejemplo.

Digamos que tenemos un conjunto de datos X que es [1,2,5,7,3].

Si tomamos muestras con reemplazo varias veces para crear tamaños de muestra iguales al tamaño de X (entonces, [7,7,2,5,7], [3,5,2,2,7], etc.), y luego calcular las medias de cada uno, ¿es que la distribución de bootstrap de la media muestral?

¿Cuál sería la distribución bayesiana de arranque de eso?

¿Y cómo se realiza la distribución bayesiana de arranque de otros parámetros (varianza, etc.) de la misma manera?

bayesian sampling bootstrap

— SpicyClubSauce
fuente

Vea sumsar.net/blog/2015/04/… y projecteuclid.org/euclid.aos/1176345338 , tal vez @ rasmus-bååth pueda responderle;)

— Tim

El bootstrap (frecuentista) toma los datos como una aproximación razonable a la distribución de población desconocida. Por lo tanto, la distribución muestral de un estadístico (una función de los datos) se puede aproximar muestreando repetidamente las observaciones con reemplazo y calculando el estadístico para cada muestra.

Deje denotar los datos originales. (En el ejemplo dado, ) Sea denotar una muestra de arranque. Tal muestra probablemente tendrá algunas observaciones repetidas una o más veces y otras observaciones estarán ausentes. La media de la muestra de bootstrap viene dada porEs la distribución de sobre varias réplicas de arranque que se utiliza para aproximar la distribución de muestreo de la población desconocida. $y = (y_1,\ldots,y_n)$ $n=5$ $y^b = (y_1^b, \ldots, y_n^b)$

m_{b} = \frac{1}{n} \sum_{i = 1}^{n} y_{i}^{b} .

$m_b = \frac{1}{n} \sum_{i=1}^n y_i^b.$

m_{b}

$m_b$

Para comprender la conexión entre el bootstrap frecuentista y el bootstrap bayesiano, es instructivo ver cómo calcular desde una perspectiva diferente. $m_b$

En cada muestra de bootstrap , cada observación ocurre de 0 a veces. Sea el número de veces que ocurre en , y sea . Así, y . Dado , podemos construir una colección de pesos no negativos que sumen uno: , donde . Con esta notación podemos reexpresar la media de la muestra de bootstrap como $y^b$ $y_i$ $n$ $h_i^b$ $y_i$ $y^b$ $h^b = (h_1^b, \ldots, h_n^b)$ $h_i^b \in \{0, 1, \ldots, n-1,n\}$ $\sum_{i=1}^n h_i^b = n$ $h^b$ $w^b = h^b/n$ $w_i^b = h_i^b/n$

{metro}_{si} = \sum_{yo = 1}^{norte} w_{yo}^{si} y_{yo} .

$m_b = \sum_{i=1}^n w_i^b\, y_i.$

La forma en que se eligen las observaciones para una muestra de bootstrap determina la distribución conjunta para . En particular, tiene una distribución multinomial y, por lo tanto,Por lo tanto, podemos calcular extrayendo de su distribución y calculando el producto punto con . Desde esta nueva perspectiva, parece que las observaciones son fijas mientras que los pesos varían. $w^b$ $h^b$

(norte w^{si}) \sim Multinomial (norte, (1 / / norte)_{yo = 1}^{norte}) .

$(n\,w^b) \sim \textsf{Multinomial}(n,(1/n)_{i=1}^n).$

m_{b}

$m_b$

w^{b}

$w^b$

y

$y$

En la inferencia bayesiana, las observaciones se toman como fijas, por lo que esta nueva perspectiva parece ser compatible con el enfoque bayesiano. De hecho, el cálculo de la media según el bootstrap bayesiano difiere solo en la distribución de los pesos. (Sin embargo, desde un punto de vista conceptual, el bootstrap bayesiano es bastante diferente de la versión frecuentista). Los datos son fijos y los pesos son los parámetros desconocidos. Podemos estar interesado en algunos funcional de los datos que dependen de los parámetros desconocidos: $y$ $w$

μ = \sum_{yo = 1}^{norte} w_{yo} y_{yo} .

$\mu = \sum_{i=1}^n w_i\, y_i.$

Aquí hay un boceto en miniatura del modelo detrás del bootstrap bayesiano: la distribución de muestreo para las observaciones es multinomial y la anterior para los pesos es una distribución limitante de Dirichlet que pone todo su peso en los vértices del simplex. (Algunos autores se refieren a este modelo como el modelo de probabilidad multinomial ).

Este modelo produce la siguiente distribución posterior para los pesos: (Esta distribución es plana sobre el símplex). Las dos distribuciones para los pesos (frecuentista y bayesiano) son bastante similares: tienen los mismos medios y covarianzas similares. La distribución de Dirichlet es "más suave" que la distribución multinomial, por lo que la secuencia de arranque bayesiana puede llamarse la secuencia de arranque suavizada. Podemos interpretar el bootstrap frecuentista como una aproximación al bootstrap bayesiano.

w \sim Dirichlet (1, ..., 1) .

$w \sim \textsf{Dirichlet}(1,\ldots,1).$

Dada la distribución posterior de los pesos, podemos aproximar la distribución posterior de la funcional mediante el muestreo repetido de su distribución de Dirichlet y calculando el producto de punto con . $\mu$ $w$ $y$

Podemos adoptar el marco de estimación de ecuaciones donde es un vector de funciones de estimación que depende de El parámetro desconocido (vector) y es un vector de ceros. Si este sistema de ecuaciones tiene una solución única para dado y , entonces podemos calcular su distribución posterior extrayendo de su distribución posterior y evaluando esa solución. (El marco de estimación de ecuaciones se utiliza con probabilidad empírica y con el método generalizado de momentos (GMM)).

\sum_{yo = 1}^{norte} w_{yo} sol (y_{yo}, θ) = \underset{_ _}{0 0},

$\sum_{i=1}^n w_i\, g(y_i,\theta) = \underline 0,$

g (y_{i}, θ)

$g(y_i,\theta)$

θ

$\theta$

\underline{0}

$\underline 0$

θ

$\theta$

y

$y$

w

$w$

w

$w$

El caso más simple es la que ya hemos tratado: Para la media y la varianza, nos tener La configuración es un poco más complicada que la de la rutina de arranque frecuente, por lo que un Bayesiano podría adoptar la rutina de arranque frecuente como una aproximación rápida.

\sum_{yo = 1}^{norte} w_{yo} (y_{yo} - μ) = 0.

$\sum_{i=1}^n w_i\,(y_i - \mu) = 0.$

θ = (μ, v)

$\theta = (\mu,v)$

sol (y_{yo}, θ) = (\begin{matrix} y_{yo} - μ \\ (y_{yo} - μ)^{2} - v \end{matrix}) .

$g(y_i,\theta) = \begin{pmatrix} y_i - \mu \\ (y_i - \mu)^2 - v \end{pmatrix}.$

— mef
fuente

Gracias por la descripción muy detallada. Personalmente agradecería una breve declaración sobre cuándo elegir cada uno.

— ErichBSchulz