Imagine una gran cena familiar, donde todos comienzan a preguntarle sobre PCA. Primero se lo explicas a tu bisabuela; entonces a ti abuela; entonces a tu madre; luego a tu cónyuge; finalmente, a su hija (que es matemática). Cada vez que la siguiente persona es menos laica. Así es como podría ser la conversación.
Bisabuela: Escuché que estás estudiando "Pee-See-Ay". Me pregunto qué es eso ...
Usted: Ah, es solo un método para resumir algunos datos. Mira, tenemos algunas botellas de vino parados aquí en la mesa. Podemos describir cada vino por su color, por lo fuerte que es, por la edad que tiene, y así sucesivamente (ver esta muy agradable la visualización de las propiedades del vino tomado de aquí ). Podemos componer una lista completa de diferentes características de cada vino en nuestra bodega. Pero muchos de ellos medirán propiedades relacionadas y, por lo tanto, serán redundantes. Si es así, ¡deberíamos poder resumir cada vino con menos características! Esto es lo que hace PCA.
Abuela: ¡Esto es interesante! Entonces, ¿esta cosa de PCA verifica qué características son redundantes y las descarta?
Tu: Excelente pregunta, abuelita! No, PCA no está seleccionando algunas características y descartando las otras. En cambio, construye algunas características nuevas que resultan resumir bien nuestra lista de vinos. Por supuesto, estas nuevas características se construyen utilizando las antiguas; por ejemplo, una nueva característica podría calcularse como la edad del vino menos el nivel de acidez del vino o alguna otra combinación como esa (las llamamos combinaciones lineales ).
De hecho, PCA encuentra las mejores características posibles, las que resumen la lista de vinos de la mejor manera posible (entre todas las combinaciones lineales concebibles). Por eso es tan útil.
Madre: Hmmm, esto ciertamente suena bien, pero no estoy segura de entenderlo. ¿Qué quiere decir realmente cuando dice que estas nuevas características de PCA "resumen" la lista de vinos?
Usted: Creo que puedo dar dos respuestas diferentes a esta pregunta. La primera respuesta es que está buscando algunas propiedades (características) del vino que difieren mucho entre los vinos. De hecho, imagine que se le ocurre una propiedad que es igual para la mayoría de los vinos. Esto no sería muy útil, ¿no? Los vinos son muy diferentes, pero su nueva propiedad hace que todos se vean iguales. Esto sin duda sería un mal resumen. En cambio, PCA busca propiedades que muestren la mayor variación posible entre los vinos.
La segunda respuesta es que busca las propiedades que le permitirían predecir o "reconstruir" las características originales del vino. Nuevamente, imagine que se le ocurre una propiedad que no tiene relación con las características originales; si usa solo esta nueva propiedad, ¡no hay forma de reconstruir las originales! Esto, nuevamente, sería un mal resumen. Entonces PCA busca propiedades que permitan reconstruir las características originales lo mejor posible.
Sorprendentemente, resulta que estos dos objetivos son equivalentes y, por lo tanto, PCA puede matar dos pájaros de un tiro.
Cónyuge: Pero querida, ¡estos dos "objetivos" de PCA suenan tan diferentes! ¿Por qué serían equivalentes?
Tu: Hmmm. Quizás debería hacer un pequeño dibujo (toma una servilleta y comienza a garabatear) . Seleccionemos dos características del vino, tal vez la oscuridad del vino y el contenido de alcohol: no sé si están correlacionados, pero imaginemos que lo están. Así es como podría verse un diagrama de dispersión de diferentes vinos:

Cada punto en esta "nube de vino" muestra un vino en particular. Verá que las dos propiedades ( x e y en esta figura) están correlacionadas. Se puede construir una nueva propiedad dibujando una línea a través del centro de esta nube de vino y proyectando todos los puntos en esta línea. Esta nueva propiedad estará dada por una combinación lineal w1x+w2y , donde cada línea corresponde a algunos valores particulares de w1 y w2 .
Ahora mire aquí con mucho cuidado: así es como se ven estas proyecciones para diferentes líneas (los puntos rojos son proyecciones de los puntos azules):

Como dije antes, PCA encontrará la "mejor" línea de acuerdo con dos criterios diferentes de cuál es la "mejor". Primero, la variación de valores a lo largo de esta línea debe ser máxima. Presta atención a cómo cambia la "extensión" (la llamamos "varianza") de los puntos rojos mientras la línea gira; puedes ver cuando alcanza el maximo? En segundo lugar, si reconstruimos las dos características originales (posición de un punto azul) a partir de la nueva (posición de un punto rojo), el error de reconstrucción estará dado por la longitud de la línea roja de conexión. Observe cómo cambia la longitud de estas líneas rojas mientras la línea gira; ¿Puedes ver cuando la longitud total alcanza el mínimo?
Si observa esta animación durante algún tiempo, notará que "la varianza máxima" y "el error mínimo" se alcanzan al mismo tiempo, es decir, cuando la línea apunta a las marcas magenta que marqué a ambos lados de la nube de vino . Esta línea corresponde a la nueva propiedad de vino que será construida por PCA.
Por cierto, PCA significa "análisis de componentes principales" y esta nueva propiedad se llama "primer componente principal". Y en lugar de decir "propiedad" o "característica", generalmente decimos "característica" o "variable".
Hija: ¡Muy bien papá! Creo que puedo ver por qué los dos objetivos producen el mismo resultado: se debe esencialmente al teorema de Pitágoras, ¿no? De todos modos, escuché que la PCA está de alguna manera relacionada con vectores propios y valores propios; ¿Dónde están en esta foto?
Usted: observación brillante. Matemáticamente, la extensión de los puntos rojos se mide como la distancia cuadrada promedio desde el centro de la nube de vino a cada punto rojo; como saben, se llama la varianza . Por otro lado, el error de reconstrucción total se mide como la longitud cuadrática promedio de las líneas rojas correspondientes. Pero como el ángulo entre las líneas rojas y la línea negra es siempre 90∘, la suma de estas dos cantidades es igual a la distancia cuadrada promedio entre el centro de la nube de vino y cada punto azul; Este es precisamente el teorema de Pitágoras. Por supuesto, esta distancia promedio no depende de la orientación de la línea negra, por lo que cuanto mayor sea la varianza, menor será el error (porque su suma es constante). Este argumento ondulado a mano se puede hacer preciso ( ver aquí ).
Por cierto, puedes imaginar que la línea negra es una barra sólida y cada línea roja es un resorte. La energía del resorte es proporcional a su longitud al cuadrado (esto se conoce en física como la ley de Hooke), por lo que la varilla se orientará para minimizar la suma de estas distancias al cuadrado. Hice una simulación de cómo se verá, en presencia de una fricción viscosa:

Con respecto a vectores propios y valores propios. Sabes qué es una matriz de covarianza ; en mi ejemplo, es una matriz de 2×2 que viene dada por
(1.070.630.630.64).
Lo que esto significa es que la varianza de la variable
x es
1.07 , la varianza de la variable
y es
0.64 y la covarianza entre ellas es
0.63 . Como es una matriz simétrica cuadrada, se puede diagonalizar eligiendo un nuevo sistema de coordenadas ortogonales, dado por sus vectores propios (por cierto, esto se llama
teorema espectral); los valores propios correspondientes se ubicarán en la diagonal. En este nuevo sistema de coordenadas, la matriz de covarianza es diagonal y se ve así:
(1.52000.19),
lo que significa que la correlación entre los puntos ahora es cero. Queda claro que la varianza de cualquier proyección estará dada por un promedio ponderado de los valores propios (aquí solo esbozo la intuición). En consecuencia, la varianza máxima posible (
1.52 ) se logrará si simplemente tomamos la proyección en el primer eje de coordenadas. Se deduce que la dirección del primer componente principal viene dada por el primer vector propio de la matriz de covarianza. (
Más detalles aquí. )
También puede ver esto en la figura giratoria: hay una línea gris allí ortogonal a la negra; juntos forman un marco de coordenadas giratorio. Intente notar cuándo los puntos azules no están correlacionados en este marco giratorio. La respuesta, una vez más, es que sucede precisamente cuando la línea negra apunta a las marcas magenta. Ahora puedo decirte cómo los encontré: marcan la dirección del primer vector propio de la matriz de covarianza, que en este caso es igual a (0.81,0.58) .
Por petición popular, compartí el código de Matlab para producir las animaciones anteriores .