1. ¿Qué es la regresión de rango reducido (RRR)?
Considere la regresión lineal múltiple multivariada, es decir, la regresión con variables independientes y variables dependientes. Supongamos que y sean conjuntos de datos predictivos ( ) y de respuesta ( ) centrados . Entonces, la regresión usual de mínimos cuadrados ordinarios (MCO) se puede formular como minimizando la siguiente función de costo:pqXYn×pn×q
L=∥Y−XB∥2,
donde es una matriz de pesos de regresión. Su solución está dada por y es fácil de ver que es equivalente a hacer regresiones OLS separadas, una para cada variable dependiente.Bp×q
B^OLS=(X⊤X)−1X⊤Y,
q
Regresión-rank reducido introduce una restricción de rango en , es decir, debe ser minimizado con , donde es el máximo permitido rango de .BLrank(B)≤rrB
2. ¿Cómo obtener la solución RRR?
Resulta que RRR puede ser lanzado como un problema de vector propio. De hecho, utilizando el hecho de que OLS es esencialmente una proyección ortogonal en el espacio de la columna de , podemos reescribir comoEl primer término no depende de y el segundo término puede ser minimizado por SVD / PCA de los valores ajustados .XL
L=∥Y−XB^OLS∥2+∥XB^OLS−XB∥2.
BY^=XB^OLS
En concreto, si son primero ejes principales de , entoncesUrrY^
B^RRR=B^OLSUrU⊤r.
3. ¿Para qué sirve RRR?
Puede haber dos razones para usar RRR.
Primero, uno puede usarlo para fines de regularización. De manera similar a la regresión cresta (RR), lazo, etc., RRR introduce cierta pena de "contracción" en . El rango óptimo se puede encontrar mediante validación cruzada. En mi experiencia, RRR supera fácilmente a OLS pero tiende a perder a RR. Sin embargo, RRR + RR puede funcionar (ligeramente) mejor que RR solo.Br
Segundo, uno puede usarlo como un método de reducción de dimensionalidad / exploración de datos. Si tenemos un montón de variables predictoras y un montón de variables dependientes, RRR construirá "factores latentes" en el espacio del predictor que hacen el mejor trabajo de explicar la varianza de DV. Uno puede tratar de interpretar estos factores latentes, trazarlos, etc. Hasta donde yo sé, esto se hace rutinariamente en ecología, donde RRR se conoce como análisis de redundancia y es un ejemplo de lo que llaman métodos de ordenación ( vea la respuesta de @ GavinSimpson aquí )
4. Relación con otros métodos de reducción de dimensionalidad.
RRR está estrechamente relacionado con otros métodos de reducción de dimensionalidad, como CCA y PLS. Lo cubrí un poco en mi respuesta a ¿Cuál es la conexión entre mínimos cuadrados parciales, regresión de rango reducido y regresión de componentes principales?
si y son predictores centrados ( ) y conjuntos de datos de respuesta ( ) y si buscamos el primer par de ejes, para y para , entonces estos métodos maximizan las siguientes cantidades:XYn×pn×qw∈RpXv∈RqY
PCA:RRR:PLS:CCA:Var(Xw)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)=Cov2(Xw,Yv)Var(Xw)⋅Corr2(Xw,Yv)
Vea allí para más detalles.
Consulte Torre, 2009, Un marco de mínimos cuadrados para el análisis de componentes para un tratamiento detallado de cómo la mayoría de los métodos multivariados lineales comunes (p. Ej., PCA, CCA, LDA, ¡pero no PLS!) Pueden considerarse RRR.
5. ¿Por qué esta sección en Hastie et al. ¿muy confuso?
Hastie y col. ¡use el término RRR para referirse a algo ligeramente diferente! En lugar de usar la función de pérdida usan como se puede ver en su fórmula 3.68. Esto introduce un -factor de blanqueamiento en la función de pérdida, esencialmente blanqueando las variables dependientes. Si observa la comparación entre CCA y RRR arriba, notará que si se blanquea, entonces la diferencia desaparece. Entonces, ¿qué Hastie et al. llamar RRR es en realidad CCA disfrazado (y de hecho, ver su 3.69).
L=∥Y−XB∥2,
L=∥(Y−XB)(Y⊤Y)−1/2∥2,
YY
Nada de eso se explica adecuadamente en esta sección, de ahí la confusión.
Vea mi respuesta a Tutorial amigable o introducción a la regresión de rango reducido para leer más.