¿Bajo exactamente qué condiciones la regresión de cresta puede proporcionar una mejora sobre la regresión de mínimos cuadrados ordinarios?

La regresión de cresta estima los parámetros $\boldsymbol \beta$ en un modelo lineal by donde $\mathbf y = \mathbf X \boldsymbol \beta$

{\hat{β}}_{λ} = (X^{⊤} X + λ I)^{- 1} X^{⊤} y,

$\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y,$

λ

$\lambda$ es un parámetro de regularización. Es bien sabido que a menudo funciona mejor que la regresión OLS (con ) cuando hay muchos predictores correlacionados.

λ = 0

$\lambda=0$

Un teorema de existencia para la regresión de crestas dice que siempre existe un parámetro tal que el error cuadrático medio de es estrictamente más pequeño que el error cuadrático medio de la MCO estimación . En otras palabras, un valor óptimo de siempre es distinto de cero. Aparentemente, esto se demostró por primera vez en Hoerl y Kennard, 1970, y se repite en muchas notas de conferencias que encuentro en línea (por ejemplo, aquí y aquí ). Mi pregunta es sobre los supuestos de este teorema: $\lambda^* > 0$ $\hat{\boldsymbol \beta}_\lambda$ $\hat{\boldsymbol \beta}_\mathrm{OLS}=\hat{\boldsymbol \beta}_0$ $\lambda$

¿Hay alguna suposición sobre la matriz de covarianza ? $\mathbf X^\top \mathbf X$
¿Hay alguna suposición sobre la dimensionalidad de $\mathbf X$ ?

En particular, ¿el teorema sigue siendo cierto si los predictores son ortogonales (es decir, es diagonal), o incluso si ? ¿Y sigue siendo cierto si solo hay uno o dos predictores (por ejemplo, un predictor y una intercepción)? $\mathbf X^\top \mathbf X$ $\mathbf X^\top \mathbf X=\mathbf I$

Si el teorema no hace tales suposiciones y sigue siendo cierto incluso en estos casos, entonces ¿por qué la regresión de cresta generalmente se recomienda solo en el caso de predictores correlacionados, y nunca (?) Se recomienda para una regresión simple (es decir, no múltiple)?

Esto está relacionado con mi pregunta sobre la visión unificada sobre la contracción: ¿cuál es la relación (si la hay) entre la paradoja de Stein, la regresión de cresta y los efectos aleatorios en modelos mixtos? , pero no hay respuestas que aclaren este punto hasta ahora.

regression ridge-regression shrinkage

— ameba dice Reinstate Monica
fuente

Parece que todas menos la última pregunta se abordan directamente en el documento de Hoerl & Kennard, especialmente en la primera oración de la Introducción y la primera oración de las Conclusiones. La última pregunta puede responderse observando que la covarianza entre un vector constante y cualquier predictor único siempre es cero, lo que permite que uno (de manera estándar) reduzca

a una matriz

X^{'} X

$\mathbf{X^\prime X}$

1 \times 1

$1\times 1$

— whuber

Gracias, @whuber. Creo que el artículo de Hoerl & Kennard responde mis preguntas (al menos las técnicas): uno debería poder seguir la prueba y verificar las suposiciones (aún no lo he hecho). Pero no estoy completamente convencido por las oraciones a las que te refieres. ¿Cómo se relaciona la primera oración de la Introducción con mi pregunta? La primera oración de las Conclusiones sugiere que si

tiene un espectro uniforme (por ejemplo, es igual a

), entonces el teorema no se aplica. Pero no estoy 100% seguro, ya que no veo esta suposición explícitamente antes de la prueba.

X^{⊤} X

$\mathbf X^\top \mathbf X$

I

$\mathbf I$

— ameba dice Reinstate Monica

Mire qué tipo de preguntas pueden hacer los usuarios de alta reputación (que generalmente solo las responden ) (y también para su otra pregunta vinculada que me envió aquí stats.stackexchange.com/questions/122062/… !

— javadba

La respuesta a ambos 1 y 2 es no, pero se necesita cuidado al interpretar el teorema de la existencia.

Varianza del estimador de cresta

Sea la estimación de cresta bajo penalización , y sea el parámetro verdadero para el modelo . Deje que sea los valores propios de . De las ecuaciones de Hoerl y Kennard 4.2-4.5, el riesgo (en términos de la norma esperada del error) es $\hat{\beta^*}$ $k$ $\beta$ $Y = X \beta + \epsilon$ $\lambda_1, \dotsc, \lambda_p$ $X^T X$
$L^2$

donde, por lo que puedo decir, Observan quetiene la interpretación de la varianza del producto interno de, mientras que

\begin{aligned} E ({[\hat{β^{*}} - β]}^{T} [\hat{β^{*}} - β]) & = σ^{2} \sum_{j = 1}^{p} λ_{j} / {(λ_{j} + k)}^{2} + k^{2} β^{T} {(X^{T} X + k I_{p})}^{- 2} β \\ = γ_{1} (k) + γ_{2} (k) \\ = R (k) \end{aligned}

$\begin{align*} E \left( \left[ \hat{\beta^*} - \beta \right]^T \left[ \hat{\beta^*} - \beta \right] \right)& = \sigma^2 \sum_{j=1}^p \lambda_j/ \left( \lambda_j +k \right)^2 + k^2 \beta^T \left( X^T X + k \mathbf{I}_p \right)^{-2} \beta \\ & = \gamma_1 (k) + \gamma_2(k) \\ & = R(k) \end{align*}$

{(X^{T} X + k I_{p})}^{- 2} = {(X^{T} X + k I_{p})}^{- 1} {(X^{T} X + k I_{p})}^{- 1} .

$\left( X^T X + k \mathbf{I}_p \right)^{-2} = \left( X^T X + k \mathbf{I}_p \right)^{-1} \left( X^T X + k \mathbf{I}_p \right)^{-1}.$

γ_{1}

$\gamma_1$

\hat{β^{*}} - β

$\hat{\beta^*} - \beta$

γ_{2}

$\gamma_2$ es el producto interno del sesgo.

Suponiendo que , entonces $X^T X = \mathbf{I}_p$ Sea

R (k) = \frac{p σ^{2} + k^{2} β^{T} β}{(1 + k)^{2}} .

$R(k) = \frac{p \sigma^2 + k^2 \beta^T \beta}{(1+k)^2}.$

será la derivada del riesgo w / r / t

. Como

, concluimos que hay algo de

tal que

R^{'} (k) = 2 \frac{k (1 + k) β^{T} β - (p σ^{2} + k^{2} β^{T} β)}{(1 + k)^{3}}

$R^\prime (k) = 2\frac{k(1+k)\beta^T \beta - (p\sigma^2 + k^2 \beta^T \beta)}{(1+k)^3}$

k

$k$

lim_{k \to 0^{+}} R^{'} (k) = - 2 p σ^{2} < 0

$\lim_{k \rightarrow 0^+} R^\prime (k) = -2p \sigma^2 < 0$

k^{*} > 0

$k^*>0$

R (k^{*}) < R (0)

$R(k^*)<R(0)$

$k=0$ $X^T X$ $\lim_{k \rightarrow 0^+} R^\prime (k)$ $- \infty$ .

Comentario

$p=1$ $X$ $(\beta, \sigma^2)$ $k$ $\beta^T \beta$ $k$ $\beta^T \beta$

¿Por qué la regresión de cresta generalmente se recomienda solo en el caso de predictores correlacionados?

$\beta ^T \beta$ $X^T X$ $\beta$ $E Y$ $X$ es sospechoso: la matriz de covarianza grande es un síntoma de eso.

Pero si su objetivo es únicamente la predicción, las preocupaciones de inferencia ya no se mantienen, y usted tiene un fuerte argumento para usar algún tipo de estimador de contracción.

— Andrew M
fuente

β

$\beta$

k

$k$

k

$k$

k = 0

$k=0$

H&K consistently assume

X^{'} X

$X^\prime X$ is of full rank. By stating that the answer to #1 is "no," are you claiming their results continue to be true when it is not?

— whuber

@whuber: Central to their derivation of the risk is that the ridge estimate

\hat{β^{*}} = Z \hat{β}

$\hat{\beta^*} = Z \hat{\beta}$ , where

\hat{β}

$\hat{\beta}$ is the OLS estimate and

Z = {((X^{T} X)^{- 1} + k I_{p})}^{- 1}

$Z = \left( (X^TX)^{-1} + k I_p \right)^{-1}$ . This clearly cannot hold as such when

X^{T} X

$X^TX$ is rank deficient. But the OLS estimate doesn't exist--so perhaps any estimate with finite risk (take

k

$k$ large enough and you'll get

\hat{β^{*}} \approx 0

$\hat{\beta^*} \approx 0$ , with risk

β^{T} β

$\beta^T \beta$ ) is better than an estimator that doesn't exist? As far as if the risk derivation still holds: I'm not sure. A different proof would be needed.

— Andrew M

@amoeba: yes, your restatement seems correct. To dominate the OLS estimator, we need some sort of adaptive procedure, in which

λ

$\lambda$ is a function of the data. On your other thread, Xi'an had a comment about adaptive ridge estimates, so that might be a place to look. RE: ridge estimates for orthogonal designs--I have added another comment as far as the guidance I'd take from their proof.

— Andrew M