Estaba leyendo algunas notas y dice que PCA puede "cambiar la esfera de los datos". Lo que me definen como "sphering the data" es dividir cada dimensión por la raíz cuadrada del valor propio correspondiente.
Supongo que por "dimensión" se refieren a cada vector base en el que estamos proyectando (es decir, los vectores propios a los que estamos proyectando). Por lo tanto, supongo que lo están haciendo:
dónde es uno de los vectores propios (es decir, uno de los componentes principales). Luego, con ese nuevo vector, supongo que están proyectando los datos sin procesar que tenemos, digamos a . Entonces los puntos proyectados ahora serían:
Afirman que hacer esto garantiza que todas las características tengan la misma variación.
Sin embargo, ni siquiera estoy seguro de si mi interpretación de lo que quieren decir con sphering es correcta y quería comprobar si lo era. Además, incluso si fuera correcto, ¿qué sentido tiene hacer algo como esto? Sé que afirman que se asegura de que todos tengan la misma variación, pero ¿por qué querríamos hacer esto y cómo se logra esto?
u
es el valor de eigenvectors y está relacionado con los valores de PC sin procesar.u'
se llama carga y está relacionado con los valores de PC normalizados (varianzas iguales). Es posible que desee leer mi respuesta al respecto: stats.stackexchange.com/a/35653/3277 .