¿De qué se trata la "regresión de rango reducido"?

He estado leyendo Los elementos del aprendizaje estadístico y no podía entender de qué se trata la Sección 3.7 "Reducción y selección de resultados múltiples". Habla de RRR (regresión de rango reducido), y solo puedo entender que la premisa se trata de un modelo lineal multivariado generalizado donde los coeficientes son desconocidos (y se debe estimar) pero se sabe que no tienen rango completo. Eso es lo único que entiendo.

El resto de las matemáticas me supera. Ni siquiera ayuda que los autores digan 'uno puede mostrar' y deja las cosas como un ejercicio.

¿Puede alguien ayudarme a explicar lo que está sucediendo aquí, intuitivamente? ¿Se supone que este capítulo está discutiendo nuevos métodos? ¿o que?

— cgo
fuente

Parece ofrecer métodos de regresión que aprovechan los modelos de resultados múltiples en el contexto de la reducción y la selección de variables. No hay un solo resultado Y, sino más de uno. Digamos que tiene 5 resultados Y, en esta sección se analizan métodos para agrupar la estimación de los métodos, en lugar de simplemente construir 5 modelos separados.

— spdrnl

Mis pocos centavos: la suposición de una matriz de bajo rango simplifica las cosas. Afortunadamente, esta suposición es válida para muchas fuentes de datos del mundo real.

— Vladislavs Dovgalecs

Parece que esta suposición se trata de tener restricciones en la solución. Este documento describe por qué statprob.com/encyclopedia/…

— Vladislavs Dovgalecs

1. ¿Qué es la regresión de rango reducido (RRR)?

Considere la regresión lineal múltiple multivariada, es decir, la regresión con variables independientes y variables dependientes. Supongamos que y sean conjuntos de datos predictivos ( ) y de respuesta ( ) centrados . Entonces, la regresión usual de mínimos cuadrados ordinarios (MCO) se puede formular como minimizando la siguiente función de costo: $p$ $q$ $\mathbf X$ $\mathbf Y$ $n \times p$ $n\times q$

L = ‖ Y - X B ‖^{2},

$L=\|\mathbf Y-\mathbf X\mathbf B\|^2,$

donde es una matriz de pesos de regresión. Su solución está dada por y es fácil de ver que es equivalente a hacer regresiones OLS separadas, una para cada variable dependiente. $\mathbf B$ $p\times q$

{\hat{B}}_{O L S} = (X^{⊤} X)^{- 1} X^{⊤} Y,

$\hat{\mathbf B}_\mathrm{OLS}=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf Y,$

q

$q$

Regresión-rank reducido introduce una restricción de rango en , es decir, debe ser minimizado con , donde es el máximo permitido rango de . $\mathbf B$ $L$ $\operatorname{rank}(\mathbf B)\le r$ $r$ $\mathbf B$

2. ¿Cómo obtener la solución RRR?

Resulta que RRR puede ser lanzado como un problema de vector propio. De hecho, utilizando el hecho de que OLS es esencialmente una proyección ortogonal en el espacio de la columna de , podemos reescribir comoEl primer término no depende de y el segundo término puede ser minimizado por SVD / PCA de los valores ajustados . $\mathbf X$ $L$

L = ‖ Y - X {\hat{B}}_{O L S} ‖^{2} + ‖ X {\hat{B}}_{O L S} - X B ‖^{2} .

$L=\|\mathbf Y-\mathbf X\hat{\mathbf B}_\mathrm{OLS}\|^2+\|\mathbf X\hat{\mathbf B}_\mathrm{OLS}-\mathbf X\mathbf B\|^2.$

B

$\mathbf B$

\hat{Y} = X {\hat{B}}_{O L S}

$\hat{\mathbf Y}=\mathbf X\hat{\mathbf B}_\mathrm{OLS}$

En concreto, si son primero ejes principales de , entonces $\mathbf U_r$ $r$ $\hat{\mathbf Y}$

{\hat{B}}_{R R R} = {\hat{B}}_{O L S} U_{r} U_{r}^{⊤} .

$\hat{\mathbf B}_\mathrm{RRR}=\hat{\mathbf B}_\mathrm{OLS}\mathbf U_r\mathbf U_r^\top.$

3. ¿Para qué sirve RRR?

Puede haber dos razones para usar RRR.

Primero, uno puede usarlo para fines de regularización. De manera similar a la regresión cresta (RR), lazo, etc., RRR introduce cierta pena de "contracción" en . El rango óptimo se puede encontrar mediante validación cruzada. En mi experiencia, RRR supera fácilmente a OLS pero tiende a perder a RR. Sin embargo, RRR + RR puede funcionar (ligeramente) mejor que RR solo. $\mathbf B$ $r$

Segundo, uno puede usarlo como un método de reducción de dimensionalidad / exploración de datos. Si tenemos un montón de variables predictoras y un montón de variables dependientes, RRR construirá "factores latentes" en el espacio del predictor que hacen el mejor trabajo de explicar la varianza de DV. Uno puede tratar de interpretar estos factores latentes, trazarlos, etc. Hasta donde yo sé, esto se hace rutinariamente en ecología, donde RRR se conoce como análisis de redundancia y es un ejemplo de lo que llaman métodos de ordenación ( vea la respuesta de @ GavinSimpson aquí )

4. Relación con otros métodos de reducción de dimensionalidad.

RRR está estrechamente relacionado con otros métodos de reducción de dimensionalidad, como CCA y PLS. Lo cubrí un poco en mi respuesta a ¿Cuál es la conexión entre mínimos cuadrados parciales, regresión de rango reducido y regresión de componentes principales?

si y son predictores centrados ( ) y conjuntos de datos de respuesta ( ) y si buscamos el primer par de ejes, para y para , entonces estos métodos maximizan las siguientes cantidades: $\mathbf X$ $\mathbf Y$ $n \times p$ $n\times q$ $\mathbf w \in \mathbb R^p$ $\mathbf X$ $\mathbf v \in \mathbb R^q$ $\mathbf Y$

$\begin{aligned} P C A : & Var (X w) \\ R R R : & {Corr}^{2} (X w, Y v) \cdot Var (Y v) \\ P L S : & Var (X w) \cdot {Corr}^{2} (X w, Y v) \cdot Var (Y v) = {Cov}^{2} (X w, Y v) \\ C C A : & {Corr}^{2} (X w, Y v) \end{aligned}$ $\begin{align} \mathrm{PCA:}&\quad \operatorname{Var}(\mathbf{Xw}) \\ \mathrm{RRR:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}) \\ \mathrm{PLS:}&\quad \operatorname{Var}(\mathbf{Xw})\cdot\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf {Yv}) = \operatorname{Cov}^2(\mathbf{Xw},\mathbf {Yv})\\ \mathrm{CCA:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot {}}\operatorname{Corr}^2(\mathbf {Xw},\mathbf {Yv}) \end{align}$

Vea allí para más detalles.

Consulte Torre, 2009, Un marco de mínimos cuadrados para el análisis de componentes para un tratamiento detallado de cómo la mayoría de los métodos multivariados lineales comunes (p. Ej., PCA, CCA, LDA, ¡pero no PLS!) Pueden considerarse RRR.

5. ¿Por qué esta sección en Hastie et al. ¿muy confuso?

Hastie y col. ¡use el término RRR para referirse a algo ligeramente diferente! En lugar de usar la función de pérdida usan como se puede ver en su fórmula 3.68. Esto introduce un -factor de blanqueamiento en la función de pérdida, esencialmente blanqueando las variables dependientes. Si observa la comparación entre CCA y RRR arriba, notará que si se blanquea, entonces la diferencia desaparece. Entonces, ¿qué Hastie et al. llamar RRR es en realidad CCA disfrazado (y de hecho, ver su 3.69).

L = ‖ Y - X B ‖^{2},

$L=\|\mathbf Y-\mathbf X \mathbf B\|^2,$

L = ‖ (Y - X B) (Y^{⊤} Y)^{- 1 / 2} ‖^{2},

$L=\|(\mathbf Y-\mathbf X \mathbf B)(\mathbf Y^\top \mathbf Y)^{-1/2}\|^2,$

Y

$\mathbf Y$

Y

$\mathbf Y$

Nada de eso se explica adecuadamente en esta sección, de ahí la confusión.

Vea mi respuesta a Tutorial amigable o introducción a la regresión de rango reducido para leer más.

— ameba dice Reinstate Monica
fuente

Esta es una explicación detallada muy bien escrita. Gracias lo aprecio.

— cgo

@amoeba Fantástica respuesta. ¿Puedo sugerir un par de retoques para que sea más accesible? En la última línea de la primera entrada, ¿puede explicar qué es , por ejemplo, el rango de la matriz del modelo si eso es lo que es? En segundo lugar, en la ecuación de definición bajo la segunda entrada, introduce , que son los coeficientes de población y, por lo tanto, un parámetro desconocido. ¿Puedes explicarlo un poco más?

r

$r$

B

$\bf B$

— Antoni Parellada

(1) Es una regresión multivariada , @Antoni, es decir, es una matriz y es una matriz, no un vector. (2) Aquí es sólo un parámetro de la pérdida de función . El objetivo es encontrar minimización .

Y

$Y$

B

$B$

B

$B$

L

$L$

B

$B$

L

$L$

— ameba dice Reinstate Monica

r

$r$

r

$r$

\hat{df} (r) = p q - (p - r) (q - r) + "a small correction term"

$\hat{\text{df}}(r) = pq - (p-r)(q-r) + \text{"a small correction term"}$

p

$p$

q

$q$

r

$r$

\frac{‖ Y - {\hat{Y}}^{RRRR} (r) ‖_{Fro}^{2}}{(n q - \hat{df} (r))^{2}}

$\frac{\|Y - \hat{Y}^{\text{RRRR}}(r)\|_{\text{Fro}}^2}{(nq - \hat{\text{df}}(r))^2}$

Ver por ejemplo google.fr/url?sa=t&source=web&rct=j&url=https://…

— dohmatob

La regresión de rango reducida es un modelo en el que no hay un solo resultado Y, sino múltiples resultados Y. Por supuesto, puede ajustar una regresión lineal multivariada separada para cada respuesta, pero esto parece ineficiente cuando la relación funcional entre los predictores y cada respuesta es claramente similar. Vea este ejercicio de kaggle para una situación en la que creo que esto obviamente es válido.

https://www.kaggle.com/c/bike-sharing-demand/data

Existen varias técnicas relacionadas para abordar este problema que crean "factores" o "componentes" a partir de las variables X que luego se usan para predecir las Ys. Esta página de documentación de SAS me ayudó a aclarar las diferencias. La regresión de rango reducida parece tratarse de extraer componentes que representan la variación máxima entre las respuestas, en contraste con los mínimos cuadrados parciales que extraen componentes que explican la variación máxima entre las respuestas y los predictores.

https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm

— Iggy25
fuente

+1. Eso es correcto. Discutí esta página de documentación de SAS y, en particular, su figura en mi respuesta a stats.stackexchange.com/questions/206587.

— ameba dice Reinstate Monica