He realizado un análisis de componentes principales de seis variables A
Solo tengo curiosidad: ¿hay alguna forma de hacer esto "al revés"? Digamos que elijo alguna combinación lineal de estas variables, por ejemplo, A + 2 B + 5 C
He realizado un análisis de componentes principales de seis variables A
Solo tengo curiosidad: ¿hay alguna forma de hacer esto "al revés"? Digamos que elijo alguna combinación lineal de estas variables, por ejemplo, A + 2 B + 5 C
Respuestas:
Si comenzamos con la premisa de que todas las variables se han centrado (práctica estándar en PCA), entonces la varianza total en los datos es solo la suma de cuadrados:
T = ∑ i ( A 2 i + B 2 i + C 2 i + D 2 i + E 2 i + F 2 i )
Esto es igual a la traza de la matriz de covarianza de las variables, que es igual a la suma de los valores propios de la matriz de covarianza. Esta es la misma cantidad de la que habla PCA en términos de "explicar los datos", es decir, desea que sus PC expliquen la mayor proporción de los elementos diagonales de la matriz de covarianza. Ahora, si hacemos de esto una función objetivo para un conjunto de valores pronosticados como este:
S = Σ i ( [ A i - A i ] 2 + ⋯ + [ F i - F i ] 2 )
Entonces el primer principal minimiza componentes S
Z i = 1√30 Ai+2√30 Bi+5√30 Ci
Luego multiplicamos los puntajes por el vector de peso para obtener nuestra predicción de rango 1.
( A i la B i C i D i E i F i ) = Z i × ( 1√30 2√30 5√30 000)
Then we plug these estimates into S
||O||22−||O−E||22||O||22
Where ||.||2
Let's say I choose some linear combination of these variables -- e.g. A+2B+5C
A+2B+5C , could I work out how much variance in the data this describes?
This question can be understood in two different ways, leading to two different answers.
A linear combination corresponds to a vector, which in your example is [1,2,5,0,0,0]
Let X
This might not be immediately obvious, because e.g. @probabilityislogic suggests to consider the reconstruction Xww⊤
Okay. Now consider a following example: X
The total variance is T=2
On the other hand, the two variables have 0.99
It is a matter of straightforward algebra to use regression solution for v
Note that if (and only if) w
PS. See my answer here for an application of the derived formula to the special case of w
Finding v
Next, the R2
Plugging now the equation for v
The denominator is equal to ‖X‖2=tr(Σ)
Let the total variance, T
Now let the predictor of xi
fc(xi)=(c⋅xi)c
Then the SSE
I think that if you choose c
If instead you choose c to be the normalized version of the vector (1,2,5,...), then T−SSEc is the variance in the data described by using c as a predictor.