Análisis de componentes principales funcionales (FPCA): ¿de qué se trata?

21

El análisis funcional de componentes principales (FPCA) es algo con lo que me he tropezado y que nunca pude entender. ¿Que es todo esto?

Consulte "Una encuesta de análisis funcional de componentes principales" por Shang, 2011 , y estoy citando:

PCA se encuentra con serias dificultades para analizar datos funcionales debido a la "maldición de la dimensionalidad" (Bellman 1961). La "maldición de la dimensionalidad" se origina en la escasez de datos en el espacio de alta dimensión. Incluso si las propiedades geométricas de PCA siguen siendo válidas, e incluso si las técnicas numéricas ofrecen resultados estables, la matriz de covarianza de la muestra es a veces una estimación pobre de la matriz de covarianza de la población. Para superar esta dificultad, FPCA proporciona una forma mucho más informativa de examinar la estructura de covarianza de la muestra que PCA [...]

Simplemente no entiendo. ¿Cuál es el inconveniente que describe este artículo? ¿No se supone que PCA es el método definitivo para manejar situaciones como la "maldición de la dimensionalidad"?

time-series pca dimensionality-reduction

— Dov
fuente

7

Exactamente, como usted afirma en la pregunta y como @tdc pone en su respuesta, en caso de dimensiones extremadamente altas, incluso si las propiedades geométricas de PCA siguen siendo válidas, la matriz de covarianza ya no es una buena estimación de la covarianza de la población real.

Hay un documento muy interesante "Análisis de componentes principales funcionales de datos de fMRI" ( pdf ) donde utilizan PCA funcional para visualizar la varianza:

... Al igual que en otras técnicas exploratorias, el objetivo es proporcionar una evaluación inicial que brinde a los datos la oportunidad de "hablar por sí mismos" antes de elegir un modelo apropiado. [...]

En el documento explican cómo lo han hecho exactamente y también proporcionan un razonamiento teórico:

La ventaja decisiva de este enfoque consiste en la posibilidad de especificar un conjunto de supuestos en la elección del conjunto de funciones base y en el error funcional minimizado por el ajuste. Estas suposiciones serán más débiles que la especificación de una función hemodinámica predefinida y un conjunto de eventos o condiciones como en el enmascaramiento F, preservando así el carácter exploratorio del procedimiento; sin embargo, los supuestos pueden seguir siendo lo suficientemente estrictos como para superar las dificultades de la PCA ordinaria.

— andreister
fuente

n \times t

$n\times t$

n

$n$

t ≫ n

$t\gg n$

t

$t$

k

$k$

k ≪ t

$k\ll t$

— ameba dice Reinstate Monica

Después de leer un poco más al respecto, decidí publicar mi propia respuesta. Quizás te interese. Ciertamente apreciaré cualquier idea adicional.

— ameba dice Reinstate Monica

24

Encuentro "PCA funcional" una noción innecesariamente confusa. No es una cosa separada, es PCA estándar aplicado a series de tiempo.

$n$ $t$ $n \times t$ $t\gg n$ $20$ $1000$ $t$

Definitivamente, aquí se puede aplicar el PCA estándar. Aparentemente, en su cita, al autor le preocupa que la serie de tiempo propia resultante sea demasiado ruidosa. ¡Esto puede suceder de hecho! Dos maneras obvias de lidiar con eso serían (a) suavizar la serie de tiempo propia resultante después de PCA, o (b) suavizar la serie de tiempo original antes de hacer PCA.

$k$ $t$ $k$

Los tutoriales sobre FPCA generalmente entran en largas discusiones sobre cómo generalizar PCA a los espacios funcionales de dimensionalidad infinita, pero la relevancia práctica de eso está totalmente fuera de mi alcance , ya que en la práctica los datos funcionales siempre están discretos para empezar.

Aquí hay una ilustración tomada del libro de texto "Análisis de datos funcionales" de Ramsay y Silverman, que parece ser la monografía definitiva sobre el "análisis de datos funcionales" que incluye FPCA:

Ramsay y Silverman, FPCA

Se puede ver que hacer PCA en los "datos discretizados" (puntos) produce prácticamente lo mismo que hacer FPCA en las funciones correspondientes en base a Fourier (líneas). Por supuesto, uno podría hacer primero el PCA discreto y luego ajustar una función en la misma base de Fourier; daría más o menos el mismo resultado.

$t=12$ $n>t$

— ameba dice Reinstate Monica
fuente

2

En el caso de trayectorias escasamente muestreadas de forma irregular (p. Ej., Datos longitudinales), FPCA está mucho más involucrado que " interpolar y luego suavizar las series de tiempo eigen resultantes ". Por ejemplo, incluso si de alguna manera se obtienen algunos componentes propios, el cálculo de las puntuaciones de proyección de datos dispersos no está bien definido; ver por ejemplo: Yao et al. JASA 2005. Concedido para procesos muestreados de forma regular, FPCA es efectivamente PCA con algunas penalizaciones de suavidad en la parte superior.

— usεr11852 dice Reinstate Monic el

Gracias, @ usεr11852 (+1). Necesito encontrar tiempo para investigarlo nuevamente. Intentaré buscar el documento al que hizo referencia y volver a esta respuesta.

— ameba dice Reinstate Monica

@amoeba, ¿todo esto suena casi relacionado con la transformación discreta de Fourier, donde recuperas las ondas componentes de una onda compleja / serie temporal?

— Russell Richie

9

Trabajé durante varios años con Jim Ramsay en la FDA, por lo que tal vez pueda agregar algunas aclaraciones a la respuesta de @ ameeba. Creo que en un nivel práctico, @amoeba tiene razón básicamente. Al menos, esa es la conclusión a la que finalmente llegué después de estudiar la FDA. Sin embargo, el marco de la FDA ofrece una visión teórica interesante de por qué suavizar los vectores propios es más que un simple error. Resulta que la optimización en el espacio funcional, sujeto a un producto interno que contiene una penalización de suavidad, proporciona una solución dimensional finita de splines base. La FDA utiliza el espacio de funciones de dimensiones infinitas, pero el análisis no requiere un número infinito de dimensiones. Es como el truco del núcleo en los procesos gaussianos o SVM. Es muy parecido al truco del núcleo, en realidad.

El trabajo original de Ramsay se ocupó de situaciones donde la historia principal en los datos es obvia: las funciones son más o menos lineales, o más o menos periódicas. Los vectores propios dominantes de PCA estándar solo reflejarán el nivel general de las funciones y la tendencia lineal (o funciones sinusoidales), básicamente diciéndonos lo que ya sabemos. Las características interesantes se encuentran en los residuos, que ahora son varios vectores propios de la parte superior de la lista. Y dado que cada vector propio posterior debe ser ortogonal a los anteriores, estas construcciones dependen cada vez más de los artefactos del análisis y menos de las características relevantes de los datos. En el análisis factorial, la rotación del factor oblicuo tiene como objetivo resolver este problema. La idea de Ramsay no era rotar los componentes, sino más bien cambiar la definición de ortogonalidad de manera que refleje mejor las necesidades del análisis. Esto significaba que si le preocupaban los componentes periódicos, se suavizaría sobre la base de $D^3-D$ $D^2$

Uno podría objetar que sería más simple eliminar la tendencia con OLS y examinar los residuos de esa operación. Nunca estuve convencido de que el valor agregado de la FDA valiera la enorme complejidad del método. Pero desde un punto de vista teórico, vale la pena considerar los problemas involucrados. Todo lo que hacemos a los datos arruina las cosas. Los residuos de OLS están correlacionados, incluso cuando los datos originales eran independientes. El suavizado de una serie temporal introduce autocorrelaciones que no estaban en la serie sin formato. La idea de la FDA era asegurar que los residuos que obtuvimos de la tendencia inicial fueran adecuados para el análisis de interés.

Debe recordar que la FDA se originó a principios de los 80 cuando las funciones de spline estaban bajo estudio activo; piense en Grace Wahba y su equipo. Desde entonces, han surgido muchos enfoques para los datos multivariados, como SEM, análisis de curvas de crecimiento, procesos gaussianos, desarrollos adicionales en la teoría de procesos estocásticos y muchos más. No estoy seguro de que la FDA siga siendo el mejor enfoque para las preguntas que aborda. Por otro lado, cuando veo aplicaciones de lo que pretende ser la FDA, a menudo me pregunto si los autores realmente entienden lo que la FDA estaba tratando de hacer.

— Placidia
fuente

+1. Vaya, he notado tu respuesta solo ahora y solo por casualidad (alguien más dejó un comentario debajo de mi respuesta aquí y me desplacé hacia abajo). ¡Muchas gracias por contribuir! Creo que necesito encontrar tiempo para leer un poco más sobre esto y pensar en lo que dijiste sobre la similitud con el truco del núcleo. Suena razonable.

— ameba dice Reinstate Monica

5

No estoy seguro acerca de FPCA, pero una cosa para recordar es que en dimensiones extremadamente altas, hay mucho más "espacio", y los puntos dentro del espacio comienzan a verse distribuidos uniformemente (es decir, todo está lejos de todo lo demás). En este punto, la matriz de covarianza comenzará a verse esencialmente uniforme y será muy sensible al ruido. Por lo tanto, se convierte en una mala estimación de la covarianza "verdadera". Quizás FPCA solucione esto de alguna manera, pero no estoy seguro.

— tdc
fuente