Estos son tres métodos diferentes, y ninguno de ellos puede verse como un caso especial de otro.
Formalmente, si e Y son conjuntos de datos predictivos centrados ( n × p ) y de respuesta ( n × q ) y si buscamos el primer par de ejes, w ∈ R p para X y v ∈ R q para Y , entonces estos métodos maximizar las siguientes cantidades:XYn×pn×qw∈RpXv∈RqY
PCA:RRR:PLS:CCA:Var(Xw)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)=Cov2(Xw,Yv)Var(Xw)⋅Corr2(Xw,Yv)
(Agregué el análisis de correlación canónica (CCA) a esta lista).
Sospecho que la confusión podría deberse a que en SAS los tres métodos parecen implementarse a través de la misma función PROC PLS
con diferentes parámetros. Por lo tanto, puede parecer que los tres métodos son casos especiales de PLS porque así es como se llama la función SAS. Sin embargo, este es solo un nombre desafortunado. En realidad, PLS, RRR y PCR son tres métodos diferentes que simplemente se implementan en SAS en una función que por alguna razón se llama PLS
.
Ambos tutoriales a los que se vinculó son realmente muy claros al respecto. La página 6 del tutorial de presentación establece los objetivos de los tres métodos y no dice que PLS "se convierte" en RRR o PCR, al contrario de lo que afirmó en su pregunta. Del mismo modo, la documentación de SAS explica que tres métodos son diferentes, dando fórmulas e intuición:
La regresión de los componentes principales selecciona factores que explican la mayor variación posible del predictor, la regresión de rango reducido selecciona factores que explican la mayor variación de respuesta posible y los mínimos cuadrados parciales equilibran los dos objetivos, buscando factores que expliquen tanto la respuesta como la variación del predictor .
Incluso hay una figura en la documentación de SAS que muestra un buen ejemplo de juguete donde tres métodos dan soluciones diferentes. En este ejemplo de juguete hay dos predictores y x 2 y una variable de respuesta y . La dirección en la X que está más correlacionado con y pasa a ser ortogonal a la dirección de la varianza máxima en X . Por lo tanto, PC1 es ortogonal al primer eje RRR, y el eje PLS está en algún punto intermedio.x1x2yXyX
Se puede agregar una penalización de cresta a la función perdida RRR obteniendo regresión de rango reducido de cresta, o RRRR. Esto empujará el eje de regresión hacia la dirección PC1, algo similar a lo que está haciendo PLS. Sin embargo, la función de costo para RRRR no se puede escribir en un formulario PLS, por lo que siguen siendo diferentes.
Tenga en cuenta que cuando solo hay una variable predictora , CCA = RRR = regresión habitual.y