¿Cuál es la conexión entre mínimos cuadrados parciales, regresión de rango reducido y regresión de componentes principales?

¿La regresión de rango reducido y la regresión de componentes principales son solo casos especiales de mínimos cuadrados parciales?

Este tutorial (Página 6, "Comparación de objetivos") establece que cuando hacemos mínimos cuadrados parciales sin proyectar X o Y (es decir, "no parcial"), se convierte en regresión de rango reducido o regresión de componente principal, correspondientemente.

Se hace una declaración similar en esta página de documentación de SAS , Secciones "Regresión de rango reducido" y "Relaciones entre métodos".

Una pregunta de seguimiento más fundamental es si tienen modelos probabilísticos subyacentes similares.

— Minkov
fuente

Este es realmente un problema importante.

— Steve

@Steve. Gracias. Vea mis comentarios anteriores para una introducción más detallada.

— Minkov

Estos son tres métodos diferentes, y ninguno de ellos puede verse como un caso especial de otro.

Formalmente, si e son conjuntos de datos predictivos centrados ( ) y de respuesta ( ) y si buscamos el primer par de ejes, para y para , entonces estos métodos maximizar las siguientes cantidades: $\mathbf X$ $\mathbf Y$ $n \times p$ $n\times q$ $\mathbf w \in \mathbb R^p$ $\mathbf X$ $\mathbf v \in \mathbb R^q$ $\mathbf Y$

\begin{aligned} P C A : & Var (X w) \\ R R R : & {Corr}^{2} (X w, Y v) \cdot Var (Y v) \\ P L S : & Var (X w) \cdot {Corr}^{2} (X w, Y v) \cdot Var (Y v) = {Cov}^{2} (X w, Y v) \\ C C A : & {Corr}^{2} (X w, Y v) \end{aligned}

$\begin{align} \mathrm{PCA:}&\quad \operatorname{Var}(\mathbf{Xw}) \\ \mathrm{RRR:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}) \\ \mathrm{PLS:}&\quad \operatorname{Var}(\mathbf{Xw})\cdot\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf {Yv}) = \operatorname{Cov}^2(\mathbf{Xw},\mathbf {Yv})\\ \mathrm{CCA:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot {}}\operatorname{Corr}^2(\mathbf {Xw},\mathbf {Yv}) \end{align}$

(Agregué el análisis de correlación canónica (CCA) a esta lista).

Sospecho que la confusión podría deberse a que en SAS los tres métodos parecen implementarse a través de la misma función PROC PLScon diferentes parámetros. Por lo tanto, puede parecer que los tres métodos son casos especiales de PLS porque así es como se llama la función SAS. Sin embargo, este es solo un nombre desafortunado. En realidad, PLS, RRR y PCR son tres métodos diferentes que simplemente se implementan en SAS en una función que por alguna razón se llama PLS.

Ambos tutoriales a los que se vinculó son realmente muy claros al respecto. La página 6 del tutorial de presentación establece los objetivos de los tres métodos y no dice que PLS "se convierte" en RRR o PCR, al contrario de lo que afirmó en su pregunta. Del mismo modo, la documentación de SAS explica que tres métodos son diferentes, dando fórmulas e intuición:

La regresión de los componentes principales selecciona factores que explican la mayor variación posible del predictor, la regresión de rango reducido selecciona factores que explican la mayor variación de respuesta posible y los mínimos cuadrados parciales equilibran los dos objetivos, buscando factores que expliquen tanto la respuesta como la variación del predictor .

Incluso hay una figura en la documentación de SAS que muestra un buen ejemplo de juguete donde tres métodos dan soluciones diferentes. En este ejemplo de juguete hay dos predictores y y una variable de respuesta . La dirección en la que está más correlacionado con pasa a ser ortogonal a la dirección de la varianza máxima en . Por lo tanto, PC1 es ortogonal al primer eje RRR, y el eje PLS está en algún punto intermedio. $x_1$ $x_2$ $y$ $X$ $y$ $X$

Se puede agregar una penalización de cresta a la función perdida RRR obteniendo regresión de rango reducido de cresta, o RRRR. Esto empujará el eje de regresión hacia la dirección PC1, algo similar a lo que está haciendo PLS. Sin embargo, la función de costo para RRRR no se puede escribir en un formulario PLS, por lo que siguen siendo diferentes.

Tenga en cuenta que cuando solo hay una variable predictora , CCA = RRR = regresión habitual. $y$

— ameba dice Reinstate Monica
fuente

La tabla al final es muy útil. Según esa tabla, uno podría considerar que PCA, RRR y CCA son "casos especiales" de PLS si también piensa que las bicicletas y los monociclos son casos especiales de un triciclo. No tiendo a pensar de esa manera.

— EdM

@EdM, creo que se puede decir que todos estos métodos son casos especiales de algún método unificador que realmente no tiene un nombre (¡pero uno puede inventarlo!). Pero el nombre "PLS" ya tiene un significado establecido y este significado no incluye ninguna de estas otras técnicas.

— ameba dice Reinstate Monica

¡Y gracias! Decidí ahora mover la tabla al comienzo de la respuesta :)

— ameba dice Reinstate Monica

X

$X$

Y

$Y$

V a r (X w)^{α} \cdot C o r r (X w, Y v)^{β} \cdot V a r (Y v)^{γ}

$\mathrm{Var}(Xw)^\alpha\cdot \mathrm{Corr}(Xw,Yv)^\beta\cdot \mathrm{Var}(Yv)^\gamma$

— ameba dice Reinstate Monica

@Moskowitz: En general, cuando la gente habla de que el método A es un "caso especial" del método B, significa que B es más general y A es equivalente a B con algunos parámetros específicos. Ellos no quieren decir que A da los mismos resultados que B bajo algunas condiciones especiales en el conjunto de datos. De ahí mi respuesta a tu pregunta.

— ameba dice Reinstate Monica