Hacer CCA versus construir una variable dependiente con PCA y luego hacer regresión

Dados dos conjuntos de datos multidimensionales, e , algunas personas realizan análisis multivariables mediante la construcción de una variable dependiente sustituta mediante el análisis de componentes principales (PCA). Es decir, ejecute PCA en el conjunto , tome puntajes a lo largo del primer componente , y ejecute una regresión múltiple de esos puntajes en : . (Estoy basando mi pregunta en este artículo ). $X$ $Y$ $Y$ $y'$ $X$ $y' = \beta X+\epsilon$

Para mí, parece una forma adulterada de análisis de correlación canónica (CCA) entre los dos conjuntos de datos. Pero al no tener antecedentes en esta área, no puedo señalarlo. Entonces mi pregunta es, ¿cuáles podrían ser los pros / contras del análisis de regresión PCA +, en comparación con CCA?

La intuición dice que CCA debería ser más razonable aquí, ya que (creo) construye las variaciones canónicas para no maximizar ciegamente la varianza explicada, sino ya con el propósito final de maximizar la correlación con en mente. Estoy en lo cierto? $X$

Referencia: Mei et al., 2010, Regresión multivariante basada en componentes principales para estudios de asociación genética de componentes del síndrome metabólico.

— juod
fuente

Esta es una buena pregunta, pero parece que conoces un acuerdo de PCA y CCA, por lo que puedes responderlo tú mismo. Y lo hace:

[CCA] construye las variaciones canónicas para no ciegamente [wrt la existencia de X] maximizar la varianza explicada [en Y], pero ya con el propósito final de maximizar la correlación con X en mente.

Totalmente cierto. La correlación de la 1ª Y's PC con X set será casi siempre más débil que la correlación de la 1ª Y's CV con ella. Esto se desprende de las imágenes que comparan las acciones de PCA con CCA.

La regresión PCA + que concibe es una estrategia de dos pasos, inicialmente "no supervisada" ("ciega", como usted dijo), mientras que CCA es una estrategia de "supervisión" de un solo paso. Ambos son válidos, ¡cada uno en su propia configuración de investigación!

El primer componente principal (PC1) obtenido en PCA del conjunto Y es una combinación lineal de variables Y. La primera variante canónica (CV1) extraída del conjunto Y en CCA de los conjuntos Y y X también es una combinación lineal de variables Y. Pero son diferentes. (Explore las fotos vinculadas, también preste atención a la frase de que CCA está más cerca, en realidad, de una forma de regresión que de PCA).

PC1 representa establece Y . Es el resumen lineal y el "adjunto" del conjunto Y, para enfrentar las relaciones con el mundo exterior más tarde (como en una regresión posterior de PC1 por las variables X).

CV1 representa el conjunto X dentro del conjunto Y. Es la imagen lineal de X que pertenece a Y, la "información privilegiada" en Y. La relación YX ya está ahí: CCA es una regresión multivariada.

Supongamos que tengo los resultados de una muestra de niños en un cuestionario de ansiedad escolar (como la prueba de Phillips) - ítems Y, y sus resultados en un cuestionario de adaptación social - X ítems. Quiero establecer la relación entre los dos conjuntos. Los elementos tanto dentro de X como dentro de Y se correlacionan, pero son bastante diferentes y no estoy satisfecho con la idea de resumir sin rodeos los puntajes de los elementos en un solo puntaje en cualquier conjunto, por lo que elijo permanecer multivariante.

Si hago PCA de Y, extrayendo PC1, y luego retrocedo en X elementos, ¿qué significa? Significa que respeto el cuestionario de ansiedad (ítems Y) como el dominio soberano (cerrado) de los fenómenos, que puede expresarse. Exprese emitiendo su mejor suma ponderada de ítems (que representa la varianza máxima) que representa todo el conjunto Y: su factor general / pivote / tendencia, "complejo de ansiedad escolar principal", la PC1. No es antes de que se forme esa representación que pase a la siguiente pregunta sobre cómo podría relacionarse con la adaptación social, la pregunta que comprobaré en la regresión.

Si hago CCAde Y vs X, extrayendo el primer par de variantes canónicas, una de cada conjunto, con una correlación máxima, ¿qué significa? Significa que sospecho el factor común entre (detrás) tanto la ansiedad como la adaptación que los hace correlacionarse entre sí. Sin embargo, no tengo ninguna razón o motivo para extraer o modelar ese factor mediante PCA o análisis factorial del conjunto combinado "variables X + variables Y" (porque, por ejemplo, veo la ansiedad y la adaptación como dos dominios bastante diferentes conceptualmente, o porque los dos cuestionarios tienen escalas (unidades) muy diferentes o distribuciones de formas diferentes que me temo "fusionar", o el número de elementos es muy diferente en ellos). Me contentaré solo con la correlación canónica entre los conjuntos. O podría no estar suponiendo ningún "factor común" detrás de los sets, y simplemente piensa "X efectúa Y". Como Y es multivariante, el efecto es multidimensional, y estoy pidiendo el efecto más fuerte de primer orden. Está dada por la primera correlación canónica y la variable de predicción correspondiente es el CV1 del conjunto Y. CV1 se extrae de Y, Y no esSelbständig productor de la misma.

— ttnphns
fuente

+1. Quizás agregaría que CCA, como cualquier otra regresión, es propenso a sobreajustar. Entonces, si Y y / o X incluyen muchas variables, entonces hacer CCA puede dar como resultado el primer componente en Y que se predice casi al 100% a partir de X pero que en realidad se debe completamente al ruido. Hacer PCA en X e Y antes de hacer CCA puede actuar como una especie de regularización. Reducir Y a una PC en una forma extrema.

— ameba

@amoeba, gracias por la adición. Toca el lado inferencial de la historia (población, importancia, parsimonia) que omití por completo en la respuesta. Creo que entiendo lo que estás diciendo, pero lo estás diciendo demasiado reservado, para alguien. Sobreajuste, ruido: estas cosas deben explicarse, por lo que tal vez le sugiera que emita una respuesta por separado para desenvolver su comentario.

— ttnphns