Comprensión geométrica de PCA en el espacio sujeto (dual)

Estoy tratando de obtener una comprensión intuitiva de cómo funciona el análisis de componentes principales (PCA) en el espacio sujeto (dual) .

Considere el conjunto de datos 2D con dos variables, y , puntos de datos (matriz de datos es y se supone que está centrado). La presentación habitual de PCA es que consideramos puntos en , escribimos la matriz de covarianza y encontramos sus vectores propios y valores propios; la primera PC corresponde a la dirección de la varianza máxima, etc. Aquí hay un ejemplo con la matriz de covarianza . Las líneas rojas muestran vectores propios escalados por las raíces cuadradas de los valores propios respectivos. $x_1$ $x_2$ $n$ $\mathbf X$ $n\times 2$ $n$ $\mathbb R^2$ $2\times 2$ $\mathbf C = \left(\begin{array}{cc}4&2\\2&2\end{array}\right)$

$\hskip 1in$

Ahora considere lo que sucede en el espacio temático (aprendí este término de @ttnphns), también conocido como espacio dual (el término utilizado en el aprendizaje automático). Este es un espacio -dimensional donde las muestras de nuestras dos variables (dos columnas de ) forman dos vectores y . La longitud al cuadrado de cada vector variable es igual a su varianza, el coseno del ángulo entre los dos vectores es igual a la correlación entre ellos. Esta representación, por cierto, es muy estándar en los tratamientos de regresión múltiple. En mi ejemplo, el espacio sujeto se ve así (solo muestro el plano 2D atravesado por los dos vectores variables): $n$ $\mathbf X$ $\mathbf x_1$ $\mathbf x_2$

$\hskip 1in$

Los componentes principales, que son combinaciones lineales de las dos variables, formarán dos vectores y en el mismo plano. Mi pregunta es: ¿cuál es la comprensión / intuición geométrica de cómo formar vectores variables de componentes principales usando los vectores variables originales en tal diagrama? Dada y , lo que procedimiento geométrico produciría ? $\mathbf p_1$ $\mathbf p_2$ $\mathbf x_1$ $\mathbf x_2$ $\mathbf p_1$

A continuación se muestra mi comprensión parcial actual.

En primer lugar, puedo calcular componentes / ejes principales a través del método estándar y trazarlos en la misma figura:

$\hskip 1in$

Además, podemos notar que el se elige de tal manera que la suma de las distancias al cuadrado entre (vectores azules) y sus proyecciones en es mínima; esas distancias son errores de reconstrucción y se muestran con líneas negras discontinuas. De manera equivalente, maximiza la suma de las longitudes al cuadrado de ambas proyecciones. Esto especifica completamente y, por supuesto, es completamente análogo a una descripción similar en el espacio primario (vea la animación en mi respuesta a Dar sentido al análisis de componentes principales, vectores propios y valores propios ). Vea también la primera parte de la respuesta de @ ttnphns aquí . $\mathbf p_1$ $\mathbf x_i$ $\mathbf p_1$ $\mathbf p_1$ $\mathbf p_1$

Sin embargo, esto no es lo suficientemente geométrico. No me dice cómo encontrar tal y no especifica su longitud. $\mathbf p_1$

Supongo que , , y encuentran en una elipse centrada en siendo y sus ejes principales. Así es como se ve en mi ejemplo: $\mathbf x_1$ $\mathbf x_2$ $\mathbf p_1$ $\mathbf p_2$ $0$ $\mathbf p_1$ $\mathbf p_2$

$\hskip 1in$

Q1: ¿Cómo demostrar eso? La demostración algebraica directa parece ser muy tediosa; ¿Cómo ver que este debe ser el caso?

Pero hay muchas elipses diferentes centradas en y que pasan por y : $0$ $\mathbf x_1$ $\mathbf x_2$

$\hskip 1in$

P2: ¿Qué especifica la elipse "correcta"? Mi primera suposición fue que es la elipse con el eje principal más largo posible; pero parece estar equivocado (hay puntos suspensivos con eje principal de cualquier longitud).

Si hay respuestas a Q1 y Q2, también me gustaría saber si se generalizan al caso de más de dos variables.

— ameba dice Reinstate Monica
fuente

¿Es cierto que hay muchas elipses posibles que se centran en el origen (donde se intersecan x1 y x2) y hacen contacto con los extremos de x1 y x2? Pensé que solo habría uno. Ciertamente puede haber muchos si relaja 1 de esos 3 criterios (centro y 2 extremos).

— gung - Restablece a Monica

Hay muchas elipses centradas en el origen que pasan a través de dos vectores. Pero para los vectores no colineales

solo hay uno que es el círculo unitario en la base dual. Es el lugar geométrico de

donde

(a, b)

$(a,b)$

(c, d)

$(c,d)$

x (a, b) + y (c, d)

$x(a,b)+y(c,d)$

{| {(\begin{matrix} a & c \\ b & d \end{matrix})}^{- 1} (\begin{matrix} x \\ y \end{matrix}) |}^{2} = 1.

$\left|\pmatrix{a&c\\b&d}^{-1}\pmatrix{x\\y}\right|^2=1.$ Se puede aprender mucho de sus ejes principales.

— whuber

variable space (I borrowed this term from ttnphns)- @amoeba, debes estar equivocado. Las variables como vectores en el espacio n-dimensional (originalmente) se denomina espacio sujeto (n sujetos como ejes "definieron" el espacio mientras que las variables p lo "abarcan"). El espacio variable es, por el contrario, lo contrario, es decir, el diagrama de dispersión habitual. Así es como se establece la terminología en las estadísticas multivariadas. (Si en el aprendizaje automático es diferente, no lo sé, entonces es mucho peor para los alumnos).

— ttnphns

Tenga en cuenta que ambos son espacios vectoriales: los vectores (= puntos) es lo que se extiende, los ejes es lo que define las direcciones y las muescas de medición del oso. Tenga en cuenta también la dialéctica: ambos "espacios" son en realidad el mismo espacio (solo formulado de manera diferente para un propósito actual). Se ve, por ejemplo, en la última imagen de esta respuesta . Cuando superpones las dos formulaciones obtienes el biplot, o espacio dual.

— ttnphns

My guess is that x1, x2, p1, p2 all lie on one ellipse¿Cuál podría ser la ayuda heurística de la elipse aquí? Lo dudo.

— ttnphns

Todos los resúmenes de mostrados en la pregunta dependen solo de sus segundos momentos; o, de manera equivalente, en la matriz . Debido a que estamos pensando en como una nube de puntos punto --Cada es una fila de --nos puede preguntar qué operaciones simples en estos puntos conservan las propiedades de . $\mathbf X$ $\mathbf{X^\prime X}$ $\mathbf X$ $\mathbf X$ $\mathbf{X^\prime X}$

Una es a izquierda-multiplicar por un matriz , que produciría otro matriz . Para que esto funcione, es esencial que $\mathbf X$ $n\times n$ $\mathbf U$ $n\times 2$ $\mathbf{UX}$

X^{'} X = (U X)^{'} U X = X^{'} (U^{'} U) X .

$\mathbf{X^\prime X} = \mathbf{(UX)^\prime UX} = \mathbf{X^\prime (U^\prime U) X}.$

La igualdad está garantizada cuando es la matriz de identidad : es decir, cuando es ortogonal . $\mathbf{U^\prime U}$ $n\times n$ $\mathbf{U}$

Es bien sabido (y fácil de demostrar) que las matrices ortogonales son producto de reflexiones y rotaciones euclidianas (forman un grupo de reflexión en ). Al elegir rotaciones sabiamente, podemos simplificar drásticamente . Una idea es centrarse en las rotaciones que afectan solo dos puntos en la nube a la vez. Estos son particularmente simples, porque podemos visualizarlos. $\mathbb{R}^n$ $\mathbf{X}$

Específicamente, dejo y dos puntos distintos de cero distintas en la nube, constituyendo filas y de . Una rotación del espacio de columna afecta solo a estos dos puntos los convierte en $(x_i, y_i)$ $(x_j, y_j)$ $i$ $j$ $\mathbf{X}$ $\mathbb{R}^n$

{\begin{cases} (x_{i}^{'}, y_{i}^{'}) = (\cos (θ) x_{i} + \sin (θ) x_{j}, \cos (θ) y_{i} + \sin (θ) y_{j}) \\ (x_{j}^{'}, y_{j}^{'}) = (- \sin (θ) x_{i} + \cos (θ) x_{j}, - \sin (θ) y_{i} + \cos (θ) y_{j}) . \end{cases}

$\cases{(x_i^\prime, y_i^\prime) = (\cos(\theta)x_i + \sin(\theta)x_j, \cos(\theta)y_i + \sin(\theta)y_j) \\ (x_j^\prime, y_j^\prime) = (-\sin(\theta)x_i + \cos(\theta)x_j, -\sin(\theta)y_i + \cos(\theta)y_j).}$

Esto equivale a dibujar los vectores y en el plano y rotarlos por el ángulo . (¡Observe cómo las coordenadas se mezclan aquí! Las van juntas y las van juntas. Por lo tanto, el efecto de esta rotación en generalmente no se verá como una rotación de los vectores y $(x_i, x_j)$ $(y_i, y_j)$ $\theta$ $x$ $y$ $\mathbb{R}^n$ $(x_i, y_i)$ $(x_j, y_j)$ como se dibuja en $\mathbb{R}^2$ )

Al elegir el ángulo correcto, podemos poner a cero cualquiera de estos nuevos componentes. Para ser concretos, elijamos para que $\theta$

{\begin{cases} \cos (θ) = \pm \frac{X_{yo}}{\sqrt{X_{yo}^{2} + X_{j}^{2}}} \\ pecado (θ) = \pm \frac{X_{j}}{\sqrt{X_{yo}^{2} + X_{j}^{2}}} \end{cases} .

$\cases{\cos(\theta) = \pm \frac{x_i}{\sqrt{x_i^2 + x_j^2}} \\ \sin(\theta) = \pm \frac{x_j}{\sqrt{x_i^2 + x_j^2}}}.$

Esto hace que . Elija el signo para hacer . Llamemos a esta operación, que cambia los puntos y en la nube representada por , . $x_j^\prime=0$ $y_j^\prime \ge 0$ $i$ $j$ $\mathbf X$ $\gamma(i,j)$

La aplicación recursiva de a hará que la primera columna de sea distinta de cero en la primera fila. Geométricamente, habremos movido todos menos un punto de la nube al eje . Ahora podemos aplicar una sola rotación, que potencialmente involucra las coordenadas en , para exprimir esos $\gamma(1,2), \gamma(1,3), \ldots, \gamma(1,n)$ $\mathbf{X}$ $\mathbf{X}$ $y$ $2, 3, \ldots, n$ $\mathbb{R}^n$ puntos hacia abajo a un solo punto. De manera equivalente, se ha reducido a una forma de bloque $n-1$ $X$

X = (\begin{matrix} X_{1}^{'} & y_{1}^{'} \\ 0 0 & z \end{matrix}),

$\mathbf{X} = \pmatrix{x_1^\prime & y_1^\prime \\ \mathbf{0} & \mathbf{z}},$

con y ambos vectores de columna con coordenadas, de tal manera que $\mathbf{0}$ $\mathbf{z}$ $n-1$

X^{'} X = (\begin{matrix} {(X_{1}^{'})}^{2} & X_{1}^{'} y_{1}^{'} \\ X_{1}^{'} y_{1}^{'} & {(y_{1}^{'})}^{2} + El | El | z El | {El |}^{2} \end{matrix}) .

$\mathbf{X^\prime X} = \pmatrix{\left(x_1^\prime\right)^2 & x_1^\prime y_1^\prime \\ x_1^\prime y_1^\prime & \left(y_1^\prime\right)^2 + ||\mathbf{z}||^2}.$

$\mathbf{X}$

X = (\begin{matrix} X_{1}^{'} & y_{1}^{'} \\ 0 0 & El | El | z El | El | \\ 0 0 & 0 0 \\ ⋮ & ⋮ \\ 0 0 & 0 0 \end{matrix}) .

$\mathbf{X} = \pmatrix{x_1^\prime & y_1^\prime \\ 0 & ||\mathbf{z}|| \\ 0 & 0 \\ \vdots & \vdots \\ 0 & 0}.$

$\mathbf{X}$ $2\times 2$ $\pmatrix{x_1^\prime & y_1^\prime \\ 0 & ||\mathbf{z}||}$

Para ilustrar, dibujé cuatro puntos iid de una distribución Normal bivariada y redondeé sus valores a

X = (\begin{matrix} 0,09 & 0,12 \\ - 0,31 & - 0,63 \\ 0,74 & - 0.23 \\ - 1.8 & - 0,39 \end{matrix})

$\mathbf{X} = \pmatrix{ 0.09 & 0.12 \\ -0.31 & -0.63 \\ 0.74 & -0.23 \\ -1.8 & -0.39}$

Esta nube de puntos inicial se muestra a la izquierda de la siguiente figura usando puntos negros sólidos, con flechas de colores que apuntan desde el origen a cada punto (para ayudarnos a visualizarlos como vectores ).

$\gamma(1,2), \gamma(1,3),$ $\gamma(1,4)$ $y$ $\mathbf X$ $||\mathbf{z}||$ $(x_1^\prime, y_1^\prime)$

$\mathbf X$

\begin{matrix} (1) & θ \to (\cos (θ) X_{1}^{'}, \cos (θ) y_{1}^{'} + pecado (θ) El | El | z El | El |) \end{matrix}

$\theta\ \to\ (\cos(\theta)x_1^\prime, \cos(\theta) y_1^\prime + \sin(\theta)||\mathbf{z}||)\tag{1}$

mientras que el segundo vector traza el mismo camino de acuerdo con

\begin{matrix} (2) & θ \to (- \sin (θ) x_{1}^{'}, - \sin (θ) y_{1}^{'} + \cos (θ) | | z | |) . \end{matrix}

$\theta\ \to\ (-\sin(\theta)x_1^\prime, -\sin(\theta) y_1^\prime + \cos(\theta)||\mathbf{z}||).\tag{2}$

$\{(\cos(\theta), \sin(\theta))\,:\, 0 \le \theta\lt 2\pi\}$

(1, 0) \to (x_{1}^{'}, 0); (0, 1) \to (y_{1}^{'}, | | z | |),

$(1,0)\ \to\ (x_1^\prime, 0);\quad (0,1)\ \to\ (y_1^\prime, ||\mathbf{z}||),$

$\theta$ $(1)$ $(2)$ $\theta$

Debido a que estos son ortogonales y están dirigidos a lo largo de los ejes de la elipse, representan correctamente los ejes principales : la solución PCA. Eso responde a la pregunta 1.

$\mathbb{R}^2$ $p=2$ $\mathbb{R}^2$

$\gamma(i,j)$ $Q$ $\mathbf{X}$ $R$ $\mathbf{D}\cdot \mathbf{V}^\prime$ $\mathbf{X} = \mathbf{U\, D\, V^\prime}$ $\mathbf{U}$

$p\ne 2$

— whuber
fuente

Aunque su respuesta puede ser ejemplar en sí misma, no está claro, para mí, cómo se relaciona con la pregunta. Estás hablando sobre la nube de datos X (y los vectores que giras son puntos de datos, filas de X). Pero la pregunta era sobre el espacio reducido del tema . En otras palabras, no tenemos ningún dato X, solo tenemos una covarianza 2x2 o una matriz de dispersión X'X.

— ttnphns

(cont.) Representamos las 2 variables resumidas por ella como 2 vectores con longitudes = sqrt (elementos diagonales) y ángulo = su correlación. Luego, el OP pregunta cómo podemos resolver puramente geométricamente los componentes principales. En otras palabras, OP quiere explicar la descomposición geométrica propia (valores propios y vectores propios o, mejor, cargas) de la matriz de covarianza simétrica 2x2.

— ttnphns

(cont.) Mire la segunda imagen allí . Lo que busca el OP de la pregunta actual es encontrar herramientas o trucos geométricos (trigonométricos, etc.) para dibujar los vectores P1 y P2 en esa imagen, teniendo solo los vectores X e Y como se indica.

— ttnphns

X

$\mathbf{X}$ $\mathbf{X^\prime X}$

X^{'} X

$\mathbf{X^\prime X}$

Gracias, estoy empezando a entender tu pensamiento. (Me gustaría que ha añadido subtítulos / sinopsis derecha en su respuesta acerca de las dos "mitades" de la misma, sólo para estructurarlo para un lector.)

— ttnphns