Estimación de la distribución posterior de covarianza de un gaussiano multivariante

15

Necesito "aprender" la distribución de un gaussiano bivariado con pocas muestras, pero una buena hipótesis sobre la distribución anterior, por lo que me gustaría utilizar el enfoque bayesiano.

Definí mi anterior:

P (μ) \sim N (μ_{0}, Σ_{0})

$\mathbf{P}(\mathbf{\mu}) \sim \mathcal{N}(\mathbf{\mu_0},\mathbf{\Sigma_0})$

μ_{0} = [\begin{matrix} 0 \\ 0 \end{matrix}] Σ_{0} = [\begin{matrix} 16 & 0 \\ 0 & 27 \end{matrix}]

$\mathbf{\mu_0} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} \ \ \ \mathbf{\Sigma_0} = \begin{bmatrix} 16 & 0 \\ 0 & 27 \end{bmatrix}$

Y mi distribución dada la hipótesis

P (x | μ, Σ) \sim N (μ, Σ)

$\mathbf{P}(x|\mathbf{\mu},\mathbf{\Sigma}) \sim \mathcal{N}(\mathbf{\mu},\mathbf{\Sigma})$

μ = [\begin{matrix} 0 \\ 0 \end{matrix}] Σ = [\begin{matrix} 18 & 0 \\ 0 & 18 \end{matrix}]

$\mathbf{\mu} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} \ \ \ \mathbf{\Sigma} = \begin{bmatrix} 18 & 0 \\ 0 & 18 \end{bmatrix}$

Ahora sé gracias a aquí que para estimar la media dados los datos

P (μ | x_{1}, \dots, x_{n}) \sim N ({\hat{μ}}_{n}, {\hat{Σ}}_{n})

$\mathbf{P} (\mathbf{\mu} | \mathbf{x_1}, \dots , \mathbf{x_n}) \sim \mathcal{N}(\mathbf{\hat{\mu}_n}, \mathbf{\hat{\Sigma}_n})$

Puedo calcular:

{\hat{μ}}_{n} = Σ_{0} {(Σ_{0} + \frac{1}{n} Σ)}^{- 1} (\frac{1}{n} \sum_{i = 1}^{n} x_{i}) + \frac{1}{n} Σ {(Σ_{0} + \frac{1}{n} Σ)}^{- 1} μ_{0}

$\mathbf{\hat{\mu}_n} = \mathbf{\Sigma_0} \left( \mathbf{\Sigma_0} + {1 \over n} \mathbf{\Sigma} \right) ^ {-1} \left( {1 \over n} \sum_{i=1}^{n} \mathbf{x_i} \right) + {1 \over n} \mathbf{\Sigma} \left( \mathbf{\Sigma_0} + {1 \over n} \mathbf{\Sigma} \right) ^{-1} \mathbf{\mu_0}$

{\hat{Σ}}_{n} = \frac{1}{n} Σ_{0} {(Σ_{0} + \frac{1}{n} Σ)}^{- 1} Σ

$\mathbf {\hat{\Sigma}_n} = {1 \over n} \mathbf{\Sigma_0} \left( \mathbf{\Sigma_0} + {1 \over n} \mathbf{\Sigma} \right) ^{-1} \mathbf{\Sigma}$

Ahora viene la pregunta, tal vez estoy equivocado, pero me parece que es solo la matriz de covarianza para el parámetro estimado , y no la covarianza estimada de mis datos. Lo que me gustaría sería calcular también $\mathbf{\Sigma_n}$ $\mathbf{\mu_n}$

P (Σ_{n_{1}} | x_{1}, \dots, x_{n})

$\mathbf{P} (\mathbf{\Sigma_{n_1}} | \mathbf{x_1}, \dots , \mathbf{x_n})$

para tener una distribución completamente especificada aprendida de mis datos.

es posible? ¿Ya se resuelve calculando y se expresa de manera incorrecta la fórmula anterior (o simplemente lo estoy interpretando mal)? Se agradecerán las referencias. Muchas gracias. $\mathbf{\Sigma_n}$

EDITAR

De los comentarios, parecía que mi enfoque era "incorrecto", en el sentido de que estaba asumiendo una covarianza constante, definida por . Lo que necesito sería poner un prior también en él, , pero no sé qué distribución debo usar y, posteriormente, cuál es el procedimiento para actualizarlo. $\mathbf{\Sigma}$ $\mathbf{P}(\mathbf{\Sigma})$

— unziberla
fuente

Ya ha especificado la covarianza de sus datos como

, ¿y no ha especificado una distribución previa para que se actualice?

Σ = [\begin{matrix} 18 & 0 \\ 0 & 18 \end{matrix}]

$\mathbf{\Sigma} = \begin{bmatrix} 18 & 0 \\ 0 & 18 \end{bmatrix}$

— Corone

Te entiendo. Entonces, con mi enfoque, básicamente asumí que la varianza era constante y especificada. Si quiero estimarlo, necesito un previo.

Ahora, mi problema es que no está claro cómo definirlo y cuál sería su distribución adecuada, pero esto parece estar fuera del alcance de la primera pregunta .

P (Σ) \sim F (μ_{Σ}, Σ_{Σ})

$\mathbf{P}(\mathbf{\Sigma}) \sim \mathcal{F} (\mathbf{\mu_{\Sigma}} , \Sigma_{\Sigma})$

— unziberla

Luego cambie la pregunta :-)

— Corone

11

Puede hacer una actualización bayesiana para la estructura de covarianza con el mismo espíritu que actualizó la media. El conjugado anterior para la matriz de covarianza de la multivariada normal es la distribución inversa de Wishart, por lo que tiene sentido comenzar allí,

$P(\Sigma) \sim W^{-1}(\mathbf{\Psi}, \nu)$

Luego, cuando obtiene su muestra de longitud , puede calcular la estimación de covarianza de la muestra $X$ $n$ $\Sigma_X = \frac{1}{n}(X-\mu)^\top(X-\mu)$

Esto se puede usar para actualizar su estimación de la matriz de covarianza

$P(\Sigma|X) \sim W^{-1}(n\Sigma_X + \mathbf{\Psi}, n + \nu)$

Puede optar por utilizar la media de esto como su estimación puntual para la covarianza (Estimador de media posterior)

$E[\Sigma|X] = \frac{n\Sigma_X + \mathbf{\Psi}}{\nu+n-p-1}$

o puede optar por utilizar el modo (Estimador de A posteriori máximo)

$\text{Mode}[\Sigma|X] = \frac{n\Sigma_X + \mathbf{\Psi}}{\nu+n+p+1}$

— Corone
fuente

Muchas gracias. Ahora supongo que algo cambiará en mi proceso de estimación. Como primer paso, debería estimar la covarianza

con su procedimiento, entonces mi distribución dada la hipótesis estimado woulb ser

y desde

se estima y tiene su propia distribución Estoy bastante seguro de que esto de alguna manera va a cambiar mi fórmula anterior para calcular

(como ocurre en gaussiano MLE cuando se utiliza la varianza de la muestra).

\hat{Σ}

$\mathbf{\hat{\Sigma}}$

P (X | μ, \hat{Σ})

$\mathbf{P} (\mathbf{X} | \mu, \mathbf{\hat{\Sigma}} )$

\hat{Σ}

$\mathbf{\hat{\Sigma}}$

{\hat{μ}}_{n}

$\mathbf{\hat{\mu}_n}$

— unziberla

El enfoque que usted describe sería en lugar de usar

para que tenga un valor real para la covarianza, como si lo supiera antes. En un enfoque frecuentista, esto sonaría mal, pero ¿quizás hay algo que me falta por el hecho de que supongo que se conoce lo anterior y esto hace que el procedimiento sea correcto?

\hat{Σ} = E [Σ | x_{1} \dots x_{n}]

$\mathbf{\hat{\Sigma}} = E[ \Sigma | \mathbf{x_1} \dots \mathbf{x_n} ]$

— unziberla

7

Ok, encontré la solución real para mi problema. Lo estoy publicando incluso si la respuesta correcta a mi pregunta (fuera de lugar) es la seleccionada.

Basically, my question explains how to estimate the mean knowing the covariance, and the answer how to estimate the covariance knowing the mean. But my actual problem was estimating with both parameters unknown.

I found the answer on Wikipedia with the derivation explained here. The multivariate normal's conjugated prior is the Normal-inverse-Wishart, that is basically a distribution over multivariate Normals.

$\mathbf{\mu}_0$ to define the mean, $\mathbf{\Psi}$ to define the covariance, and two scalar values $\kappa_0$ and $\nu_0$ that I would say define how confident we are on the estimation of the first two parameters respectively.

The updated distribution after observing $n$ samples of a $p$ -variate Normal has the form

P (μ, Σ | X) \sim N I W (\frac{κ_{0} μ_{0} + n \bar{x}}{κ_{0} + n}, κ_{0} + n, ν_{0} + n, Ψ + C + \frac{κ_{0} n}{κ_{0} + n} (\bar{x} - μ_{0}) (\bar{x} - μ_{0})^{T})

$\mathbf{P}(\boldsymbol\mu, \mathbf{\Sigma} | \mathbf{X}) \sim \mathrm{NIW} \left( \frac{\kappa_0\boldsymbol\mu_0+n\mathbf{\bar{x}}}{\kappa_0+n} ,\, \kappa_0+n,\, \nu_0+n ,\, \boldsymbol\Psi + \mathbf{C} + \frac{\kappa_0 n}{\kappa_0+n}(\mathbf{\bar{x}}-\boldsymbol\mu_0)(\mathbf{\bar{x}}-\boldsymbol\mu_0)^T \right)$

where

\bar{x} = \frac{1}{n} \sum_{i = 0}^{n} x_{i}

$\mathbf{\bar{x}} = {1 \over n} \sum_{i=0}^{n} \mathbf{x_i}$

C = \sum_{i = 1}^{n} (x_{i} - \bar{x}) (x_{i} - \bar{x})^{T}

$\mathbf{C} = \sum_{i=1}^n (\mathbf{x_i} - \mathbf{\bar{x}}) (\mathbf{x_i} - \mathbf{\bar{x}})^T$

so my desired estimated parameters are

E (μ | X) = \frac{κ_{0} μ_{0} + n \bar{x}}{κ_{0} + n}

$E (\boldsymbol\mu | \mathbf{X}) = {{\kappa_0\boldsymbol\mu_0+n\mathbf{\bar{x}}} \over{\kappa_0+n} }$

E (Σ | X) = \frac{Ψ + C + \frac{κ_{0} n}{κ_{0} + n} (\bar{x} - μ_{0}) (\bar{x} - μ_{0})^{T}}{ν_{0} + n - p - 1}

$E (\mathbf{\Sigma} | \mathbf{X}) = \frac{ \boldsymbol\Psi + \mathbf{C} + \frac{\kappa_0 n}{\kappa_0+n}(\mathbf{\bar{x}}-\boldsymbol\mu_0)(\mathbf{\bar{x}}-\boldsymbol\mu_0)^T }{ \nu_0 + n - p - 1}$

— unziberla
fuente