Regresión lineal regular vs. regresión RKHS

Estoy estudiando la diferencia entre la regularización en la regresión RKHS y la regresión lineal, pero me resulta difícil comprender la diferencia crucial entre los dos.

$(x_i,y_i)$ $f(\cdot)$

f (x) \approx u (x) = \sum_{i = 1}^{m} α_{i} K (x, x_{i}),

$\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation}$

K (\cdot, \cdot)

$K(\cdot,\cdot)$

α_{m}

$\alpha_m$

min_{α \in R^{n}} \frac{1}{n} ‖ Y - K α ‖_{R^{n}}^{2} + λ α^{T} K α,

$\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation}$ donde, con algún abuso de notación, la entrada

i, j

$i,j$ de la matriz del núcleo

K

$K$ es

K (x_{i}, x_{j})

$K(x_{i},x_{j})$ . Esto da

α^{*} = (K + λ n I)^{- 1} Y .

$\begin{equation} \alpha^*=(K+\lambda nI)^{-1}Y. \end{equation}$ Alternativamente, podríamos tratar el problema como un problema de regresión lineal / regresión lineal:

min_{α \in R^{n}} \frac{1}{n} ‖ Y - K α ‖_{R^{n}}^{2} + λ α^{T} α,

$\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}\alpha},\end{equation}$ con solución

α^{*} = (K^{T} K + λ n I)^{- 1} K^{T} Y .

$\begin{equation} {\alpha^*=(K^{T}K +\lambda nI)^{-1}K^{T}Y}. \end{equation}$

¿Cuál sería la diferencia crucial entre estos dos enfoques y sus soluciones?

— MthQ
fuente

stats.stackexchange.com/questions/79192/…

— Cagdas Ozgenc

@MThQ - ¿Su descripción de la regresión de cresta 'normal' todavía no funciona en el dual? Solo para aclarar que creo que se supone que la regresión de cresta normal funciona en el primario (donde se realiza la representación explícita de características).

— rnoodle

Como probablemente haya notado al escribir los problemas de optimización, la única diferencia en la minimización es qué norma de Hilbert usar para la penalización. Es decir, cuantificar qué valores 'grandes' de son para fines de penalización. En la configuración RKHS, utilizamos el producto interno RKHS, , mientras que la regresión de cresta penaliza con respecto a la norma euclidiana. $\alpha$ $\alpha^tK\alpha$

Una consecuencia teórica interesante es cómo cada efectos de método del espectro de la reproducción del núcleo . Según la teoría de RKHS, tenemos que es simétrico positivo definido. Según el teorema espectral, podemos escribir donde es la matriz diagonal de los valores propios y es la matriz ortonormal de los vectores propios. En consecuencia, en la configuración RKHS, Mientras tanto, en la configuración de regresión de Ridge, tenga en cuenta que por simetría, $K$ $K$ $K = U^tDU$ $D$ $U$

\begin{aligned} (K + λ n I)^{- 1} Y & = [U^{t} (D + λ n I) U]^{- 1} Y \\ = U^{t} [D + λ n I]^{- 1} U Y . \end{aligned}

$\begin{align} (K+\lambda nI)^{-1}Y &= [U^t(D+\lambda nI)U]^{-1}Y\\ &= U^t[D+\lambda nI]^{-1}UY. \end{align}$

K^{t} K = K^{2}

$K^tK=K^2$

\begin{aligned} (K^{2} + λ n I)^{- 1} K Y & = [U^{t} (D^{2} + λ n I) U]^{- 1} K Y \\ = U^{t} [D^{2} + λ n I]^{- 1} U K Y \\ = U^{t} [D^{2} + λ n I]^{- 1} D U Y \\ = U^{t} [D + λ n D^{- 1}]^{- 1} U Y . \end{aligned}

$\begin{align} (K^2+\lambda nI)^{-1}KY &= [U^t(D^2+\lambda nI)U]^{-1}KY\\ &= U^t[D^2+\lambda nI]^{-1}UKY\\ &= U^t[D^2+\lambda nI]^{-1}DUY\\ &= U^t[D+\lambda nD^{-1}]^{-1}UY. \end{align}$ Deje que el espectro de sea . En la regresión RKHS, los valores propios se estabilizan con . En la regresión de Ridge, tenemos . Como resultado, RKHS modifica uniformemente los valores propios mientras que Ridge agrega un valor mayor si el correspondiente es más pequeño.

K

$K$

ν_{1}, \dots, ν_{n}

$\nu_1,\ldots,\nu_n$

ν_{i} \to ν_{i} + λ n

$\nu_i\rightarrow\nu_i+\lambda n$

ν_{i} \to ν_{i} + λ n / ν_{i}

$\nu_i\rightarrow \nu_i + \lambda n/\nu_i$

ν_{i}

$\nu_i$

Dependiendo de la elección del núcleo, las dos estimaciones para pueden estar cercanas o alejadas entre sí. La distancia en el sentido de la norma del operador será Sin embargo, esto todavía está limitado para una dada $\alpha$

\begin{aligned} ‖ α_{RKHS} - α_{Ridge} ‖_{ℓ^{2}} & = ‖ A_{RKHS} Y - A_{Ridge} Y ‖_{ℓ^{2}} \\ \leq ‖ [D + λ n I]^{- 1} - [D + λ n D^{- 1}]^{- 1} ‖_{\infty} ‖ Y ‖_{ℓ^{2}} \\ \leq max_{i = 1, \dots, n} {| (ν_{i} + λ n)^{- 1} - (ν_{i} + λ n / ν_{i})^{- 1} |} ‖ Y ‖_{ℓ^{2}} \\ \leq max_{i = 1, \dots, n} {\frac{λ n | 1 - ν_{i} |}{(ν_{i} + λ n) (ν_{i}^{2} + λ n)}} ‖ Y ‖_{ℓ^{2}} \end{aligned}

$\begin{align} \|{\alpha_\text{RKHS}-\alpha_\text{Ridge}}\|_{\ell^2} &= \|{ A_\text{RKHS}Y-A_\text{Ridge}Y }\|_{\ell^2}\\ &\le \|[D+\lambda nI]^{-1}-[D+\lambda n D^{-1}]^{-1}\|_\infty\|Y\|_{\ell^2}\\ &\le \max_{i=1,\ldots,n}\left\{| (\nu_i+\lambda n)^{-1} - (\nu_i+\lambda n/\nu_i)^{-1} |\right\}\|Y\|_{\ell^2}\\ &\le \max_{i=1,\ldots,n}\left\{ \frac{\lambda n|1-\nu_i|}{(\nu_i+\lambda n)(\nu_i^2+\lambda n)} \right\}\|Y\|_{\ell^2}\\ \end{align}$

Y

$Y$ , por lo que sus dos estimadores no pueden estar arbitrariamente separados. Por lo tanto, si su núcleo está cerca de la identidad, lo más probable es que haya poca diferencia en los enfoques. Si sus núcleos son muy diferentes, los dos enfoques aún pueden conducir a resultados similares.

En la práctica, es difícil decir definitivamente si uno es mejor que el otro para una situación dada. Como estamos minimizando con respecto al error al cuadrado al representar los datos en términos de la función del núcleo, estamos eligiendo efectivamente una mejor curva de regresión del correspondiente espacio de funciones de Hilbert. Por lo tanto, penalizar con respecto al producto interno RKHS parece ser la forma natural de proceder.

— Adam B Kashlak
fuente

¿Tiene una referencia para esto?

— rnoodle