Supongamos que tenemos variables medibles, , hacemos un número de mediciones y luego deseamos realizar una descomposición de valores singulares en los resultados para encontrar los ejes de mayor varianza para los puntos en el espacio -dimensional. ( Nota: suponga que las medias de ya se han restado, por lo que para todo .)( a 1 , a 2 , … , a N ) M > NN ⟨ un i ⟩ = 0 i
Ahora suponga que una (o más) de las variables tiene una magnitud característica significativamente diferente que el resto. Por ejemplo, podría tener valores en el rango de mientras que el resto podría estar alrededor de . Esto sesgará mucho el eje de mayor varianza hacia el eje de . 10 - 100 0.1 - 1 a 1
La diferencia en las magnitudes podría deberse simplemente a una desafortunada elección de la unidad de medida (si hablamos de datos físicos, por ejemplo, kilómetros frente a metros), pero en realidad las diferentes variables pueden tener dimensiones totalmente diferentes (por ejemplo, peso frente a volumen), por lo que Es posible que no haya una forma obvia de elegir unidades "comparables" para ellos.
Pregunta: Me gustaría saber si existen formas estándar / comunes de normalizar los datos para evitar este problema. Estoy más interesado en técnicas estándar que producen magnitudes comparables para para este propósito en lugar de crear algo nuevo.
EDITAR: Una posibilidad es normalizar cada variable por su desviación estándar o algo similar. Sin embargo, aparece el siguiente problema: interpretemos los datos como una nube de puntos en el espacio -dimensional. Esta nube de puntos se puede girar, y este tipo de normalización dará resultados finales diferentes (después de la SVD) dependiendo de la rotación. (Por ejemplo, en el caso más extremo, imagine rotar los datos con precisión para alinear los ejes principales con los ejes principales).
Espero que no haya una forma invariable de rotación para hacer esto, pero agradecería si alguien pudiera señalarme alguna discusión sobre este tema en la literatura, especialmente con respecto a las advertencias en la interpretación de los resultados.