Comprender esta trama de PCA de ventas de helados versus temperatura

9

Estoy tomando datos ficticios de temperatura vs Ventas de helados y los categoricé usando K Means (n clusters = 2) para distinguir 2 categorías (totalmente ficticias).

Ahora estoy haciendo un Análisis de componentes principales en estos datos y mi objetivo es comprender lo que veo. Sé que el objetivo de PCA es reducir la dimensionalidad (obviamente no en este caso) y mostrar la varianza de los elementos. Pero, ¿cómo lees el diagrama de PCA a continuación, es decir, cuál es la historia que puedes contar sobre la temperatura frente al helado en el diagrama de PCA? ¿Qué significan las PC 1ra (X) y 2da (Y)?

— adhg
fuente

1

Esto debería ser un comentario, pero no tengo suficiente representante. El siguiente enlace es un excelente tutorial sobre PCA. Particularmente, el Ejemplo de Juguete logra un buen equilibrio entre "lo suficientemente simple como para comprenderlo con una imagen" y "lo suficientemente complicado como para que pueda usarse como analogía en problemas futuros". Creo que leerlo podría ayudar a aclarar lo que PCA puede y no puede hacer por usted. cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

— Jason

18

Sé que el objetivo de PCA es reducir la dimensionalidad

Esto es a menudo lo que la gente supone, pero de hecho PCA es solo una representación de sus datos en una base ortogonal. Esta base todavía tiene la misma dimensionalidad que sus datos originales. Nada se pierde ... todavía. La parte de reducción de dimensionalidad es completamente suya. Lo que PCA asegura es que las dimensiones superiores de su nueva proyección son las mejores dimensiones en las que sus datos podrían representarse. ¿Qué significa mejor? Ahí es donde entra en juego la varianza explicada. $k$ $k$

obviamente no en este caso

¡No estaría tan seguro de eso! Desde su segunda gráfica, visualmente parece que gran parte de la información de sus datos puede proyectarse en una línea horizontal. ¡Esa es 1 dimensión, en lugar de la trama original que estaba en 2 dimensiones! Obviamente pierde algo de información porque está eliminando el eje Y, pero es su decisión aceptar si esta pérdida de información es aceptable.

Hay un montón de preguntas relacionadas con qué PCA está en el sitio, así que le recomiendo que las consulte aquí , aquí , aquí o aquí . Si tiene otras preguntas después de eso, publíquelas y con gusto lo ayudaré.

Como tu pregunta real:

¿Cuál es la historia que puedes contar sobre la temperatura frente al helado en la trama de PCA?

Dado que los nuevos ejes de coordenadas son una combinación lineal de las coordenadas originales, entonces ... ¡básicamente nada! PCA le dará una respuesta como (números compuestos):

\begin{aligned} PAG C 1 & = 2.5 \times helado - 3.6 \times temperatura \\ PAG C 2 & = - 1,5 \times helado + 0.6 \times temperatura \end{aligned}

$\begin{split} \mathrm{PC1} &= 2.5\times \text{ice cream} - 3.6\times \text{temperature}\\ \mathrm{PC2} &= -1.5\times \text{ice cream} + 0.6\times \text{temperature} \end{split}$

¿Eso es útil para ti? Tal vez. Pero supongo que no :)

Editado

Agregaré este recurso que creo que es útil porque los gráficos interactivos son geniales.

Editado de nuevo

Para aclarar qué significa mejor : $k$

PCA intenta encontrar las dimensiones que producen la mayor varianza cuando los datos se proyectan sobre ellas. Suponiendo que sus datos tienen dimensiones, las primeras PC explican más varianza en sus datos que cualquier otra dimensión. Eso es lo que quiero decir con mejor . Si eso es útil o no es otra cosa. $n > k$ $k$ $k$ $k$

— ilanman
fuente

66

Además, asegúrese de escalar las variables. De lo contrario, las ventas (números mucho más altos) explicarán la mayoría de la variación. Probablemente por qué las unidades en sus PC son tan diferentes.

— Filipe

Buena respuesta, pero su afirmación "... las mejores dimensiones kk en las que sus datos posiblemente podrían ser representados como ..." quizás esté demasiado generalizada. La dirección de la varianza máxima no es necesariamente útil para separar dos clases. De alguna manera, a menudo funciona bien, pero no porque PCA hace algo para tomar las mejores decisiones para un propósito particular.

— Wayne

"De hecho, PCA es solo una representación de sus datos sobre una base ortogonal". Estoy constantemente sorprendido por el hecho de que muchas personas no entienden este punto ...

— 3x89g2

5

A la buena respuesta de Ilan man, agregaría que hay una interpretación bastante directa de sus componentes principales, aunque en este simple caso 2D no agrega mucho a lo que podríamos haber interpretado simplemente mirando el diagrama de dispersión.

La primera PC es una suma ponderada (es decir, una combinación lineal donde ambos coeficientes son positivos) de temperatura y consumo de helado. En el lado derecho tiene días calurosos donde se vende mucho helado, y en el lado izquierdo tiene días más fríos donde se vende menos helado. Esa PC explica la mayor parte de tu variación y los grupos que tienes coinciden con esos dos lados.

La segunda PC mide cómo la temperatura y el consumo de helado se alejan de la estrecha relación lineal subrayada por la primera PC. En la parte superior del gráfico tenemos días con más helado vendido en comparación con otros días de la misma temperatura y en la parte inferior días con menos helado vendido de lo esperado según la temperatura. Esa PC explica solo una pequeña parte de la variación.

Es decir, podemos contar una historia a partir de los componentes principales, aunque con solo dos variables es la misma historia que podríamos haber notado sin PCA. Con más variables, la PCA se vuelve más útil porque cuenta historias que de otra manera serían más difíciles de notar.

— Pere
fuente