¿Kernel PCA con kernel lineal es equivalente a PCA estándar?

Si en el núcleo PCA elijo un núcleo lineal $K(\mathbf{x},\mathbf{y}) = \mathbf x^\top \mathbf y$ , ¿el resultado será diferente del PCA lineal ordinario ? ¿Son las soluciones fundamentalmente diferentes o existe alguna relación bien definida?

pca kernel-trick

— tgoossens
fuente

Resumen: el núcleo PCA con núcleo lineal es exactamente equivalente al estándar PCA.

Sea la matriz de datos centrada de tamaño con variables en columnas y puntos de datos en filas. Entonces la matriz de covarianza viene dada por , sus vectores propios son ejes principales y los valores propios son variaciones de PC. Al mismo tiempo, se puede considerar la llamada matriz de Gram del tamaño Es fácil ver que tiene los mismos valores propios (es decir, variaciones de PC) hasta el $\mathbf{X}$ $N \times D$ $D$ $N$ $D \times D$ $\mathbf{X}^\top\mathbf{X}/(n-1)$ $\mathbf{X}\mathbf{X}^\top$ $N \times N$ $n-1$ factor, y sus vectores propios son componentes principales escalados a la norma de la unidad.

Esto era PCA estándar. Ahora, en el kernel PCA consideramos alguna función que asigna cada punto de datos a otro espacio vectorial que generalmente tiene una mayor dimensionalidad , posiblemente incluso infinito. La idea de kernel PCA es realizar la PCA estándar en este nuevo espacio. $\phi(x)$ $D_\mathrm{new}$

Dado que la dimensionalidad de este nuevo espacio es muy grande (o infinita), es difícil o imposible calcular una matriz de covarianza. Sin embargo, podemos aplicar el segundo enfoque para PCA descrito anteriormente. De hecho, la matriz de Gram seguirá siendo del mismo tamaño manejable . Los elementos de esta matriz están dados por , que llamaremos función de núcleo $N \times N$ $\phi(\mathbf{x}_i)\phi(\mathbf{x}_j)$ $K(\mathbf{x}_i,\mathbf{x}_j)=\phi(\mathbf{x}_i)\phi(\mathbf{x}_j)$ . Esto es lo que se conoce como el truco del núcleo : en realidad, uno nunca necesita calcular , sino solo . Los vectores propios de esta matriz de Gram serán los componentes principales en el espacio objetivo, los que nos interesan. $\phi()$ $K()$

La respuesta a su pregunta ahora se vuelve obvia. Si , entonces la matriz de Gram del núcleo se reduce a que es igual a la matriz de Gram estándar y, por lo tanto, los componentes principales no cambiarán. $K(x,y)=\mathbf{x}^\top \mathbf{y}$ $\mathbf{X} \mathbf{X}^\top$

Una referencia muy legible es Scholkopf B, Smola A y Müller KR, análisis de componentes principales de Kernel, 1999 , y tenga en cuenta que, por ejemplo, en la Figura 1, se refieren explícitamente al PCA estándar como el que utiliza el producto de punto como una función de kernel:

kernel PCA

— ameba dice Reinstate Monica
fuente

¿De dónde son esas fotos en tu respuesta? ¿De algún libro?

— Pinocho

@Pinocchio, la cifra está tomada de Scholkopf et al. papel, referenciado y vinculado en mi respuesta.

— ameba dice Reinstate Monica

"Es fácil ver que tiene los mismos valores propios (es decir, variaciones de PC) hasta el factor n-1 ". ¿No significa esto que no son completamente equivalentes entonces? Digamos que tengo una matriz con n = 10 muestras, d = 200 dimensiones. En PCA estándar podría proyectar los datos a 199 dimensiones si quisiera, pero en PCA de núcleo con núcleo lineal solo puedo tener hasta 10 dimensiones.

— Cesar

@Cesar, no, si tiene n = 10 muestras, entonces la matriz de covarianza tendrá un rango de 10-1 = 9 y la PCA estándar solo encontrará 9 dimensiones (así como la PCA del núcleo). Ver aquí: stats.stackexchange.com/questions/123318 .

— ameba dice Reinstate Monica

Recibo un archivo que no se encuentra para el enlace de referencia de Scholkopf B, Smola A y Müller KR.

— pbible

$X$ $N \times D$ $D$ $N$ $X = U \Sigma V^\top$ $U$ $X$ $XX^\top = U \Sigma^2 U^\top$ tiene los mismos vectores singulares izquierdos y, por lo tanto, los mismos componentes principales.

— Martha White
fuente

Para PCA estándar, pensé que nos importaba, la SVD de la matriz de covarianza, así que realmente no entiendo cómo es relevante la SVD de X, ¿podría expandirse?

— m0s

@ m0s Para PCA, nos preocupamos por la descomposición propia de la matriz de covarianza que usualmente realizamos mediante la SVD de la matriz de datos (centrada).

— MrDrFenner

Me parece que un KPCA con núcleo lineal debería ser lo mismo que el PCA simple.

La matriz de covarianza de la que va a obtener los valores propios es la misma:

l i n e a r K P C A_{m a t r i x} = \frac{1}{l} \sum_{j = 1}^{l} K (x_{j}, x_{j}) = \frac{1}{l} \sum_{j = 1}^{l} x_{j} x_{j}^{T} = P C A_{m a t r i x}

$linearKPCA_{matrix} = \frac{1}{l} \sum_{j=1}^{l}K(x_{j},x_{j}) = \frac{1}{l} \sum_{j=1}^{l}x_{j}x_{j}^T = PCA_{matrix}$

Puedes consultar con más detalles aquí .

— Jundiaius
fuente

K (x_{i}, x_{j})

$K(x_i, x_j)$