Esta es una buena pregunta, pero parece que conoces un acuerdo de PCA y CCA, por lo que puedes responderlo tú mismo. Y lo hace:
[CCA] construye las variaciones canónicas para no ciegamente [wrt la existencia de X] maximizar la varianza explicada [en Y], pero ya con el propósito final de maximizar la correlación con X en mente.
Totalmente cierto. La correlación de la 1ª Y's PC con X set será casi siempre más débil que la correlación de la 1ª Y's CV con ella. Esto se desprende de las imágenes que comparan las acciones de PCA con CCA.
La regresión PCA + que concibe es una estrategia de dos pasos, inicialmente "no supervisada" ("ciega", como usted dijo), mientras que CCA es una estrategia de "supervisión" de un solo paso. Ambos son válidos, ¡cada uno en su propia configuración de investigación!
El primer componente principal (PC1) obtenido en PCA del conjunto Y es una combinación lineal de variables Y. La primera variante canónica (CV1) extraída del conjunto Y en CCA de los conjuntos Y y X también es una combinación lineal de variables Y. Pero son diferentes. (Explore las fotos vinculadas, también preste atención a la frase de que CCA está más cerca, en realidad, de una forma de regresión que de PCA).
PC1 representa establece Y . Es el resumen lineal y el "adjunto" del conjunto Y, para enfrentar las relaciones con el mundo exterior más tarde (como en una regresión posterior de PC1 por las variables X).
CV1 representa el conjunto X dentro del conjunto Y. Es la imagen lineal de X que pertenece a Y, la "información privilegiada" en Y. La relación YX ya está ahí: CCA es una regresión multivariada.
Supongamos que tengo los resultados de una muestra de niños en un cuestionario de ansiedad escolar (como la prueba de Phillips) - ítems Y, y sus resultados en un cuestionario de adaptación social - X ítems. Quiero establecer la relación entre los dos conjuntos. Los elementos tanto dentro de X como dentro de Y se correlacionan, pero son bastante diferentes y no estoy satisfecho con la idea de resumir sin rodeos los puntajes de los elementos en un solo puntaje en cualquier conjunto, por lo que elijo permanecer multivariante.
Si hago PCA de Y, extrayendo PC1, y luego retrocedo en X elementos, ¿qué significa? Significa que respeto el cuestionario de ansiedad (ítems Y) como el dominio soberano (cerrado) de los fenómenos, que puede expresarse. Exprese emitiendo su mejor suma ponderada de ítems (que representa la varianza máxima) que representa todo el conjunto Y: su factor general / pivote / tendencia, "complejo de ansiedad escolar principal", la PC1. No es antes de que se forme esa representación que pase a la siguiente pregunta sobre cómo podría relacionarse con la adaptación social, la pregunta que comprobaré en la regresión.
Si hago CCAde Y vs X, extrayendo el primer par de variantes canónicas, una de cada conjunto, con una correlación máxima, ¿qué significa? Significa que sospecho el factor común entre (detrás) tanto la ansiedad como la adaptación que los hace correlacionarse entre sí. Sin embargo, no tengo ninguna razón o motivo para extraer o modelar ese factor mediante PCA o análisis factorial del conjunto combinado "variables X + variables Y" (porque, por ejemplo, veo la ansiedad y la adaptación como dos dominios bastante diferentes conceptualmente, o porque los dos cuestionarios tienen escalas (unidades) muy diferentes o distribuciones de formas diferentes que me temo "fusionar", o el número de elementos es muy diferente en ellos). Me contentaré solo con la correlación canónica entre los conjuntos. O podría no estar suponiendo ningún "factor común" detrás de los sets, y simplemente piensa "X efectúa Y". Como Y es multivariante, el efecto es multidimensional, y estoy pidiendo el efecto más fuerte de primer orden. Está dada por la primera correlación canónica y la variable de predicción correspondiente es el CV1 del conjunto Y. CV1 se extrae de Y, Y no esSelbständig productor de la misma.