¿Por qué la PCA probabilística usa variables gaussianas anteriores sobre variables latentes?

Actualmente estoy leyendo artículos sobre PCA probabilístico y me pregunto por qué se elige Gaussian prior (y no algún otro prior) para las variables latentes. ¿Es solo porque es simple o hay otra razón?

Referencias

Tipping & Bishop, 1999, Análisis probabilístico de componentes principales , justo debajo de la ecuación. (2)
Tipping & Bishop, 1999, Mezclas de analizadores probabilísticos de componentes principales - ecuación (4)

— Irminsul
fuente

PCA probabilístico

La PCA probabilística es un modelo gaussiano de variable latente de la siguiente forma. Las observaciones consisten en variables , se supone que las variables latentes consisten en variables ; la variable anterior sobre latente es una gaussiana de covarianza unitaria de media cero: y la distribución condicional de las variables observadas dadas las variables latentes es Resulta que la solución de máxima verosimilitud para este modelo viene dada por los primeros componentes PCA de los datos: columnas de $\mathbf x \in \mathbb R^D$ $D$ $\mathbf z \in \mathbb R^M$ $M<D$

z \sim N (0, I),

$\mathbf z \sim \mathcal N(\mathbf 0, \mathbf I),$

x | z \sim N (W z + μ, σ^{2} I) .

$\mathbf x | \mathbf z \sim \mathcal N(\mathbf W\mathbf z+\boldsymbol \mu, \sigma^2 \mathbf I).$

M

$M$

W_{ML}

$\mathbf W_\text{ML}$ son proporcionales a los vectores propios superiores de la matriz de covarianza (ejes principales). Ver Tipping & Bishop para más detalles.

¿Por qué usar Gaussian prior?

Para cualquier otro previo (o al menos para la mayoría de los otros anteriores) la solución de máxima verosimilitud no corresponderá a la solución estándar de PCA, por lo que no habría razón para llamar a este modelo de variable latente "PCA probabilístico". Gaussian anterior es el que da lugar a PCA. $\mathcal N(\mathbf 0, \mathbf I)$
La mayoría de los otros antecedentes harían el problema mucho más complicado o incluso analíticamente intratable. Tener distribución gaussiana previa y condicional gaussiana conduce a la distribución marginal gaussiana , y es fácil ver que su matriz de covarianza estará dada por . Las distribuciones no gaussianas son mucho más difíciles de trabajar. $p(\mathbf x)$ $\mathbf W^\top \mathbf W + \sigma^2\mathbf I$
Tener distribución marginal gaussiana también es atractivo porque la tarea del PCA estándar es modelar la matriz de covarianza (es decir, el segundo momento); PCA no está interesado en los momentos superiores de la distribución de datos. La distribución gaussiana se describe completamente en los dos primeros momentos: media y covarianza. No queremos utilizar distribuciones más complicadas / flexibles, porque PCA no se ocupa de estos aspectos de los datos. $p(\mathbf x)$
El Gauss anterior presenta la matriz de covarianza unidad porque la idea es tener variables latentes no correlacionados que dan lugar a las covarianzas observadas sólo a través de cargas . $\mathbf W$

— ameba
fuente

Gracias ! ¡Está realmente claro! Para el primer punto, estoy de acuerdo, pero parece ser una respuesta a la pregunta '¿Por qué este modelo se llama PPCA?' Los puntos 2 a 4 son exactamente lo que esperaba, debería haber convertido la pregunta en '¿Cuáles son los beneficios de tomar un gaussiano antes?'

— Irminsul