¿Por qué la PCA es sensible a los valores atípicos?

Hay muchas publicaciones en este SE que discuten enfoques sólidos para el análisis de componentes principales (PCA), pero no puedo encontrar una buena explicación de por qué PCA es sensible a los valores atípicos en primer lugar.

machine-learning pca outliers

— Psi
fuente

Porque la contribución de la norma L2 es muy alta para los valores atípicos. Luego, cuando se minimiza la norma L2 (que es lo que PCA intenta hacer), esos puntos serán más difíciles de ajustar que los puntos más cercanos al centro.

— mathreadler

Esta respuesta te dice todo lo que necesitas. Solo imagina un valor atípico y lee atentamente.

— S. Kolassa - Restablece a Mónica el

Una de las razones es que PCA puede considerarse como una descomposición de bajo rango de los datos que minimiza la suma de las normas $L_2$ de los residuos de la descomposición. Es decir, si $Y$ son sus datos ( $m$ vectores de $n$ dimensiones) y $X$ es la base PCA ( $k$ vectores de $n$ dimensiones), entonces la descomposición minimizará estrictamente

‖ Y - X UNA ‖_{F}^{2} = \sum_{j = 1}^{metro} ‖ Y_{j} - X {UNA}_{j .} ‖^{2}

$\lVert Y-XA \rVert^2_F = \sum_{j=1}^{m} \lVert Y_j - X A_{j.} \rVert^2$ Aquí

A

$A$ es la matriz de coeficientes de descomposición de PCA y

‖ \cdot ‖_{F}

$\lVert \cdot \rVert_F$ es una norma de Frobenius de la matriz

Debido a que el PCA minimiza las normas $L_2$ (es decir, las normas cuadráticas) tiene los mismos problemas de mínimos cuadrados o de ajuste de un gaussiano al ser sensible a los valores atípicos. Debido a la cuadratura de las desviaciones de los valores atípicos, dominarán la norma total y, por lo tanto, impulsarán los componentes de PCA.

— sega_sai
fuente