En primer lugar, creo que descorrelacionar y blanquear son dos procedimientos separados.
Para descorrelacionar los datos, necesitamos transformarlos para que los datos transformados tengan una matriz de covarianza diagonal. Esta transformación se puede encontrar resolviendo el problema del valor propio. Encontramos los vectores propios y los valores propios asociados de la matriz de covarianza resolviendoΣ = X X′
Σ Φ = Φ Λ
donde es una matriz diagonal que tiene los valores propios como sus elementos diagonales.Λ
La matriz así diagonaliza la matriz de covarianza de X . Las columnas de Φ son los vectores propios de la matriz de covarianza.ΦXΦ
También podemos escribir la covarianza diagonalizada como:
Φ′Σ Φ = Λ(1)
Xyo
X∗yo= Φ′Xyo(2)
Λ
Λ- 1 / 2Λ Λ- 1 / 2= Yo
( 1 )
Λ- 1 / 2Φ′Σ Φ Λ- 1 / 2= Yo
X∗yoX†yo
X†yo= Λ- 1 / 2X∗yo= Λ- 1 / 2Φ′Xyo(3)
X†yoX†yoE ( x†yoX†yo′) = I
Σ
Y finalmente, hay un "problema" común que la gente debe tener cuidado. Hay que tener cuidado de calcular los factores de escala en los datos de entrenamiento , y luego usar las ecuaciones (2) y (3) para aplicar los mismos factores de escala a los datos de la prueba, de lo contrario corre el riesgo de sobreajustar (estaría usando información del conjunto de pruebas en el proceso de capacitación).
Fuente: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf