Linealidad de PCA

35

PCA se considera un procedimiento lineal, sin embargo:

PAGS do UNA (X) \neq PAGS do UNA (X_{1}) + PAGS do UNA (X_{2}) + ... + PAGS do UNA (X_{norte}),

$\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n),$

donde . Esto quiere decir que los vectores propios obtenidos por los PCA en las matrices de datos no suman igual a los vectores propios obtenidos por PCA en la suma de las matrices de datos . Pero no es la definición de una función lineal que: $X=X_1+X_2+\ldots+X_n$ $X_i$ $X_i$ $f$

F (X + y) = F (X) + F (y) ?

$f(x+y)=f(x)+f(y)?$

Entonces, ¿por qué la PCA se considera "lineal" si no satisface esta condición básica de linealidad?

pca linear

— Alpha Omega
fuente

Una vez escribí u oí (perdón, no recuerdo dónde ni cuándo), que PCA "pertenece a la familia de procedimientos lineales" porque se basa en dependencias lineales entre variables. Utiliza la matriz de correlación de Pearson y busca combinaciones lineales de mayor varianza.

— Łukasz Deryło

44

La naturaleza de esta pregunta podría volverse un poco más clara al contemplar la configuración mucho más simple y rutinaria de la regresión de mínimos cuadrados ordinarios: este es el arquetipo de un procedimiento estadístico lineal. Sin embargo, el proceso de estimar los coeficientes de mínimos cuadrados es una función manifiestamente no lineal de la matriz de datos , como lo demuestra la fórmula . (Observe que es una función lineal del vector de respuesta .)

X

$X$

\hat{β} = (X^{'} X)^{- 1} X^{'} y

$\hat\beta = (X^\prime X)^{-1}X^\prime y$

y

$y$

— whuber

44

Puede valer la pena recordar que f (x) = x + 1 también es una "función lineal" ... pero no satisface lo que acaba de decir ... lo que debería explicar algo.

— Mehrdad

Eso es porque

(X_{1} + X_{2})^{T} (X_{1} + X_{2}) \neq X_{1}^{T} X_{1} + X_{2}^{T} X_{2}

$(X_1+X_2)^T(X_1+X_2)\neq X_1^TX_1+X_2^TX_2$

— Gabriel Romon

39

Cuando decimos que PCA es un método lineal, nos referimos al mapeo reductor de dimensionalidad desde el espacio de alta dimensión a un espacio de menor dimensión . En PCA, este mapeo viene dado por la multiplicación de por la matriz de vectores propios de PCA y por lo tanto es manifiestamente lineal (la multiplicación de la matriz es lineal):Esto está en contraste con los métodos no lineales de reducción de dimensionalidad , donde el mapeo de reducción de dimensionalidad puede ser no lineal. $f:\mathbf x\mapsto \mathbf z$ $\mathbb R^p$ $\mathbb R^k$ $\mathbf x$

z = F (X) = V^{⊤} X .

$\mathbf z = f(\mathbf x) = \mathbf V^\top \mathbf x.$

Por otro lado, los vectores propios superiores se calculan a partir de la matriz de datos usando lo que usted llamó en su pregunta: y este mapeo es ciertamente no lineal: implica el cálculo de vectores propios de la matriz de covarianza, que es un procedimiento no lineal . (Como un ejemplo trivial, multiplicar por aumenta la matriz de covarianza por , pero sus vectores propios permanecen igual ya que están normalizados para tener unidades de longitud). $k$ $\mathbf V\in \mathbb R^{p\times k}$ $\mathbf X\in \mathbb R^{n\times p}$ $\mathrm{PCA}()$

V = PAGS do UNA (X),

$\mathbf V = \mathrm{PCA}(\mathbf X),$

X

$\mathbf X$

2

$2$

4

$4$

— ameba dice Reinstate Monica
fuente

Que obtuve 35 votos a favor para esta respuesta trivial es bastante ridículo (y se debe principalmente a que este hilo está en las Preguntas de la Red Caliente por un tiempo).

— ameba dice Reinstate Monica

5

"Lineal" puede significar muchas cosas, y no se emplea exclusivamente de manera formal.

PCA a menudo no se define como una función en el sentido formal y, por lo tanto, no se espera que cumpla los requisitos de una función lineal cuando se describe como tal. Se describe con mayor frecuencia, como dijiste, como un procedimiento y, a veces, como un algoritmo (aunque no me gusta esta última opción). A menudo se dice que es lineal de una manera informal, no bien definida.

PCA puede considerarse lineal, por ejemplo, en el siguiente sentido. Pertenece a una familia de métodos que consideran que cada variable se puede aproximar mediante una función donde e es un conjunto de variables con algunas características deseables. propiedad. En el caso de PCA, es un conjunto de variables independientes que pueden reducirse en cardinalidad con una pérdida mínima en la precisión de aproximación en un sentido específico. Esas son propiedades deseables en numerosos entornos. $X_i$

X_{yo} \approx F_{Y} (α)

$X_i \approx f_Y(\alpha)$

α \in R^{k}

$\alpha \in \mathbb{R}^k$

Y

$Y$

k

$k$

Y

$Y$

Ahora, por PCA, cada se limita a la forma que es, una combinación lineal de las variables en . $f_i$

F_{Y} (α) = \sum_{yo = 1}^{k} α_{yo} Y_{yo}

$f_Y(\alpha) = \sum_{i=1}^k \alpha_{i}Y_i$

Y

$Y$

Dada esta restricción, ofrece un procedimiento para encontrar los valores óptimos (en cierto sentido) de y los . Es decir, PCA solo considera funciones lineales como hipótesis plausibles. En este sentido, creo que puede describirse legítimamente como "lineal". $Y$ $\alpha_{ij}$

— broncoAbierto
fuente

3

PCA proporciona / es una transformación lineal.

$\mathbf{M} \equiv PCA(X_1 + X_2)$ $\mathbf{M}(X_1+X_2) = \mathbf{M}(X_1) + \mathbf{M}(X_2)$

$PCA(X_1 + X_2)$ $PCA(X_1)$ $PCA(X_2)$

Como comparación, un ejemplo muy simple de un proceso que usa una transformación lineal pero no es una transformación lineal en sí misma:

$D(\mathbf{v})$ $\mathbf{v}$ $\left[x,y\right]=\left[1,0\right]$

$D(\left[1,1\right]) \rightarrow \left[0,\sqrt{2}\right]$

y

$D(\left[0,1\right]) \rightarrow \left[-1,0\right]$

pero

$D(\left[1,1\right]+\left[0,1\right]=\left[1,2\right]) \rightarrow \left[-0.78,2.09\right] \neq \left[-1,\sqrt{2}\right]$

Esta duplicación del ángulo, que implica el cálculo de ángulos, no es lineal, y es análoga a la afirmación de la ameba, que el cálculo del vector propio no es lineal.

— Sexto Empírico
fuente