PCA y proporción de varianza explicada


90

En general, ¿qué significa decir que la fracción de la varianza en un análisis como PCA se explica por el primer componente principal? ¿Alguien puede explicar esto intuitivamente pero también dar una definición matemática precisa de lo que significa "varianza explicada" en términos de análisis de componentes principales (PCA)?X

Para una regresión lineal simple, la línea r-cuadrado de mejor ajuste siempre se describe como la proporción de la varianza explicada, pero tampoco estoy seguro de qué hacer con eso. ¿La proporción de varianza aquí es solo la extensión de la desviación de los puntos de la línea de mejor ajuste?


Respuestas:


104

En el caso de PCA, "varianza" significa varianza sumativa o variabilidad multivariada o variabilidad general o variabilidad total . A continuación se muestra la matriz de covarianza de algunas 3 variables. Sus variaciones están en la diagonal, y la suma de los 3 valores (3.448) es la variabilidad general.

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

Ahora, PCA reemplaza las variables originales con nuevas variables, llamadas componentes principales, que son ortogonales (es decir, tienen cero covariaciones) y tienen variaciones (llamadas valores propios) en orden decreciente. Entonces, la matriz de covarianza entre los componentes principales extraídos de los datos anteriores es la siguiente:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

Tenga en cuenta que la suma diagonal sigue siendo 3.448, lo que dice que los 3 componentes representan toda la variabilidad multivariada. El primer componente principal representa o "explica" 1.651 / 3.448 = 47.9% de la variabilidad general; la segunda explica 1.220 / 3.448 = 35.4% de la misma; el tercero explica .577 / 3.448 = 16.7%.

Entonces, ¿qué quieren decir cuando dicen que " PCA maximiza la varianza " o " PCA explica la varianza máxima "? Eso no es, por supuesto, que encuentre la mayor varianza entre tres valores 1.343730519 .619205620 1.485549631, no. PCA encuentra, en el espacio de datos, la dimensión (dirección) con la mayor varianza fuera de la varianza general1.343730519+.619205620+1.485549631 = 3.448 . Esa mayor variación sería 1.651354285. Luego encuentra la dimensión de la segunda varianza más grande, ortogonal a la primera, fuera de la 3.448-1.651354285varianza general restante . Esa segunda dimensión sería la 1.220288343varianza. Y así. La última dimensión restante es la .576843142varianza. Vea también "Pt3" aquí y la gran respuesta aquí explicando cómo se hizo con más detalle.

Matemáticamente, la PCA se realiza mediante funciones de álgebra lineal llamadas descomposición propia o descomposición svd. Estas funciones le devolverán todos los valores propios 1.651354285 1.220288343 .576843142(y los vectores propios correspondientes) a la vez ( ver , ver ).


1
¿Qué quiere decir con: "Tenga en cuenta que la suma diagonal sigue siendo 3.448, lo que dice que los 3 componentes explican toda la variabilidad multivariada" y cuál es la diferencia entre su método y PoV (proporción de variación)?
kamaci

2
No sugiero ningún "método". Acabo de explicar que todas las PC representan la misma cantidad total de variabilidad que las variables originales.
ttnphns

¿Puedes consultar mi pregunta: stats.stackexchange.com/questions/44464/…
kamaci

Lo siento :-( Actualmente no puedo. Hay demasiados comentarios para sintonizar.
ttnphns

1
si acabas de leer la pregunta es suficiente. No hay nada en los comentarios.
kamaci

11

@ttnphns ha proporcionado una buena respuesta, quizás pueda agregar algunos puntos. Primero, quiero señalar que había una pregunta relevante sobre CV, con una respuesta realmente fuerte, definitivamente querrás echarle un vistazo. En lo que sigue, me referiré a las gráficas que se muestran en esa respuesta.

Las tres parcelas muestran los mismos datos. Tenga en cuenta que existe una variabilidad en los datos tanto vertical como horizontalmente, pero podemos pensar que la mayoría de la variabilidad es en realidad diagonal . En el tercer gráfico, esa línea diagonal larga y negra es el primer vector propio (o el primer componente principal), y la longitud de ese componente principal (la extensión de los datos a lo largo de esa línea, no en realidad la longitud de la línea en sí, que solo se dibuja en la trama) es el primer valor propio--es la cantidad de varianza explicada por el primer componente principal. Si tuviera que sumar esa longitud con la longitud del segundo componente principal (que es el ancho de la extensión de los datos ortogonalmente fuera de esa línea diagonal), y luego dividiría cualquiera de los valores propios por ese total, obtendría el porcentaje de la varianza explicada por el componente principal correspondiente.

Por otro lado, para comprender el porcentaje de la varianza explicada en la regresión, puede mirar el gráfico superior. En ese caso, la línea roja es la línea de regresión, o el conjunto de los valores pronosticados del modelo. La varianza explicada puede entenderse como la relación de la extensión vertical de la línea de regresión (es decir, desde el punto más bajo de la línea hasta el punto más alto de la línea) a la extensión vertical de los datos (es decir, desde el punto de datos más bajo al punto de datos más alto). Por supuesto, eso es solo una idea suelta, porque literalmente son rangos, no variaciones, pero eso debería ayudarlo a entender el punto.

Asegúrese de leer la pregunta. Y, aunque me referí a la respuesta principal, varias de las respuestas dadas son excelentes. Vale la pena tu tiempo para leerlos todos.


3

Hay una respuesta matemática muy simple, directa y precisa a la pregunta original.

Y1Y2...YpagsRyo2

una1una2...unapagsPAGSC1=una1Y1+una2Y2++unapagsYpagsyo=1pagsRyo2(YyoEl |PAGSC1)

En este sentido, puede interpretar la primera PC como un maximizador de "varianza explicada" o, más precisamente, un maximizador de "varianza total explicada".

siyo=C×unayoC0 0

Para referencias a literatura original y extensiones, ver

Westfall, PH, Arias, AL y Fulton, LV (2017). Enseñanza de componentes principales mediante correlaciones, investigación conductual multivariante, 52, 648-660.


0

Y=UNA+siYUNAsiYUNAsiYUNAsivunar(Y)=vunar(UNA)+vunar(si)+2Cov(UNA,si)UNAsi0 0+si1XsimiY=si0 0+si1X+miYsi0 0+si1X

Y


Debe verificar su fórmula para la varianza de Y: no es correcta. Sin embargo, lo que es más importante, el intento de una explicación de regresión no caracteriza correctamente la PCA ni las formas en que las personas piensan en ella y la usan.
whuber

1
Ty, error fijo en la fórmula. Mi respuesta es para la segunda parte de la pregunta sobre la proporción de varianza explicada por la línea de regresión.
Joven
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.