¿Por qué transformar los datos antes de realizar el análisis de componentes principales?


16

Estoy siguiendo un tutorial aquí: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/ para obtener una mejor comprensión de PCA.

El tutorial utiliza el conjunto de datos Iris y aplica una transformación de registro antes de PCA:

Observe que en el siguiente código aplicamos una transformación logarítmica a las variables continuas según lo sugerido por [1] y establecemos centere scaleiguales a TRUEen la llamada a prcomppara estandarizar las variables antes de la aplicación de PCA.

¿Podría alguien explicarme en inglés simple por qué utiliza primero la función de registro en las primeras cuatro columnas del conjunto de datos de Iris. Entiendo que tiene algo que ver con hacer que los datos sean relativos, pero estoy confundido sobre cuál es exactamente la función de registro, centro y escala.

La referencia [1] anterior es a Venables y Ripley, estadísticas aplicadas modernas con S-PLUS , Sección 11.1 que dice brevemente:

Los datos son medidas físicas, por lo que una estrategia inicial sólida es trabajar en escala logarítmica. Esto se ha hecho en todo momento.


Respuestas:


19

El conjunto de datos de iris es un buen ejemplo para aprender PCA. Dicho esto, las primeras cuatro columnas que describen la longitud y el ancho de sépalos y pétalos no son un ejemplo de datos fuertemente sesgados. Por lo tanto, la transformación logarítmica de los datos no cambia mucho los resultados, ya que la rotación resultante de los componentes principales no cambia mucho por la transformación logarítmica.

En otras situaciones, la transformación logarítmica es una buena opción.

Realizamos PCA para obtener información sobre la estructura general de un conjunto de datos. Centramos, escalamos y, a veces, log-transform para filtrar algunos efectos triviales, que podrían dominar nuestro PCA. El algoritmo de una PCA a su vez encontrará la rotación de cada PC para minimizar los residuos al cuadrado, es decir, la suma de las distancias perpendiculares al cuadrado de cualquier muestra a las PC. Los valores grandes tienden a tener un alto apalancamiento.

Imagine inyectar dos nuevas muestras en los datos del iris. Una flor con una longitud de pétalo de 430 cm y otra con una longitud de pétalo de 0.0043 cm. Ambas flores son muy anormales, son 100 veces más grandes y 1000 veces más pequeñas, respectivamente, que los ejemplos promedio. El apalancamiento de la primera flor es enorme, de modo que las primeras PC en su mayoría describirán las diferencias entre la flor grande y cualquier otra flor. La agrupación de especies no es posible debido a ese valor atípico. Si los datos se transforman logarítmicamente, el valor absoluto ahora describe la variación relativa. Ahora la pequeña flor es la más anormal. No obstante, es posible contener todas las muestras en una imagen y proporcionar una agrupación justa de las especies. Mira este ejemplo:

data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3,  430  ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5  ,"virginica_brevis") # a small flower

#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)

ingrese la descripción de la imagen aquí

#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)

ingrese la descripción de la imagen aquí


2
Buena demostración y parcelas.
shadowtalker

3

Bueno, la otra respuesta da un ejemplo, cuando la transformación logarítmica se usa para reducir la influencia de valores extremos o valores atípicos.
Se produce otro argumento general cuando intenta analizar datos que son compuestos multiplicativamente en lugar de aditivamente : el modelo PCA y FA por sus composiciones matemáticas aditivas. MultiplicativoLas composiciones se producen en el caso más simple en datos físicos como la superficie y el volumen de cuerpos (funcionalmente) que dependen (por ejemplo) de los tres parámetros longitud, ancho, profundidad. Uno puede reproducir las composiciones de un ejemplo histórico de la PCA temprana, creo que se llama "problema de la bola de Thurstone (o" cubos ") o similar. Una vez que jugué con los datos de ese ejemplo y descubrí que los datos transformados logarítmicamente daban un modelo mucho más bonito y claro para la composición de los datos medidos de volumen y superficie con las tres medidas unidimensionales.

Además de estos ejemplos simples, si consideramos en la investigación social las interacciones de datos , entonces usualmente las pensamos, así como las mediciones compuestas multiplicativamente de elementos más elementales. Entonces, si observamos específicamente las interacciones, una transformación logarítmica podría ser una herramienta útil especial para obtener un modelo matemático para la descomposición.


¿Podría enumerar algunas referencias que puedan explicar mejor las composiciones "multiplicativas"? ¡Muchas gracias!
Amatya

1
@Amatya - No encontré el "problema de la caja de thurstone", sino un sitio de discusión (alemán) pca en cubos, que contiene ancho, largo, altura como elementos básicos y superficies y volumen como elementos adicionales combinados multiplicativamente. Quizás las fórmulas incluidas para las definiciones son suficientes. Ver sgipt.org/wisms/fa/Quader/q00.htm
Gottfried Helms

1
Ah, y lo olvidé: una vieja discusión mía sobre esto go.helms-net.de/stat/fa/SGIPT_Quader.htm
Gottfried Helms

@GottfriedHelms Todavía no entiendo por qué si estamos estandarizando las variables, también tenemos que transformarlas. Entiendo el principio general de reducir la influencia no deseada de los valores extremos extremos, pero si ya los estamos estandarizando (centrando, escalando), parece que la transformación del registro además está realmente distorsionando los datos.
Yu Chen el

@YuChen: cualquier transformación logarítmica convierte la composición multiplicativa en composición aditiva , y la composición aditiva es la suposición básica (además de la linealidad, etc.) de todos los tipos de componentes y análisis factorial. Entonces, si sus datos tienen composición multiplicativa, una transformación logarítmica debería ser una opción que valga la pena considerar.
Gottfried Helms
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.