Este es el problema 3.23 en la página 97 de Hastie et al., Elementos de aprendizaje estadístico , 2do. ed. (5ª impresión) .
La clave de este problema es una buena comprensión de los mínimos cuadrados ordinarios (es decir, la regresión lineal), particularmente la ortogonalidad de los valores ajustados y los residuos.
Lema de ortogonalidad : Sea la matriz de diseño , el vector de respuesta y los parámetros (verdaderos). Suponiendo que es de rango completo (que lo haremos en todo momento), las estimaciones de OLS de son . Los valores ajustados son . Entonces . Es decir, los valores ajustados son ortogonales a los residuos. Esto se debe a que .Xn×pyβXββ^=(XTX)−1XTyy^=X(XTX)−1XTy⟨y^,y−y^⟩=y^T(y−y^)=0XT(y−y^)=XTy−XTX(XTX)−1XTy=XTy−XTy=0
Ahora, vamos ser un vector columna de tal manera que es la ésima columna de . Las condiciones asumidas son:xjxjjX
- 1N⟨xj,xj⟩=1 para cada , ,j1N⟨y,y⟩=1
- 1N⟨xj,1p⟩=1N⟨y,1p⟩=0 donde denota un vector de unos de longitud , y1pp
- 1N|⟨xj,y⟩|=λ para todo .j
Tenga en cuenta que, en particular , la última declaración del lema de ortogonalidad es idéntica a para todo .⟨xj,y−y^⟩=0j
Las correlaciones están ligadas
Ahora, . Entonces,
y el segundo término en el lado derecho es cero por el lema de ortogonalidad , entonces
según lo deseado. El valor absoluto de las correlaciones son solo
u(α)=αXβ^=αy^
⟨xj,y−u(a)⟩=⟨xj,(1−α)y+αy−αy^⟩=(1−α)⟨xj,y⟩+α⟨xj,y−y^⟩,
1N|⟨xj,y−u(α)⟩|=(1−α)λ,
ρ^j(α)=1N|⟨xj,y−u(α)⟩|1N⟨xj,xj⟩−−−−−−−−√1N⟨y−u(α),y−u(α)⟩−−−−−−−−−−−−−−−−−−√=(1−α)λ1N⟨y−u(α),y−u(α)⟩−−−−−−−−−−−−−−−−−−√
Nota : El lado derecho anterior es independiente de y el numerador es la misma que la covarianza ya hemos asumido que todo el 's y así, en particular, sin sustracción de la media es necesario, se centran ( )jxjy
¿Cuál es el punto de? A medida que aumenta, el vector de respuesta se modifica de manera que avanza lentamente hacia la solución de mínimos cuadrados ( ¡restringida! ) Obtenida al incorporar solo los primeros parámetros en el modelo. Esto modifica simultáneamente los parámetros estimados, ya que son productos internos simples de los predictores con el vector de respuesta (modificado). Sin embargo, la modificación toma una forma especial. Mantiene la (magnitud de) las correlaciones entre los predictores y la respuesta modificada igual durante todo el proceso (aunque el valor de la correlación está cambiando). ¡Piensa en lo que esto está haciendo geométricamente y entenderás el nombre del procedimiento!αp
Forma explícita de la correlación (absoluta)
Centrémonos en el término en el denominador, ya que el numerador ya está en la forma requerida. Tenemos
⟨y−u(α),y−u(α)⟩=⟨(1−α)y+αy−u(α),(1−α)y+αy−u(α)⟩.
Sustituyendo en y usando la linealidad del producto interno, obtenemosu(α)=αy^
⟨y−u(α),y−u(α)⟩=(1−α)2⟨y,y⟩+2α(1−α)⟨y,y−y^⟩+α2⟨y−y^,y−y^⟩.
Observa eso
- ⟨y,y⟩=N por suposición,
- ⟨y,y−y^⟩=⟨y−y^,y−y^⟩+⟨y^,y−y^⟩=⟨y−y^,y−y^⟩ , aplicando el lema de ortogonalidad (una vez más) al segundo término en el medio; y,
- ⟨y−y^,y−y^⟩=RSS por definición.
Al poner todo esto junto, notarás que tenemos
ρ^j(α)=(1−α)λ(1−α)2+α(2−α)NRSS−−−−−−−−−−−−−−−−−√=(1−α)λ(1−α)2(1−RSSN)+1NRSS−−−−−−−−−−−−−−−−−−−−−√
Para concluir, y está claro que está disminuyendo monotónicamente en y como .1−RSSN=1N(⟨y,y,⟩−⟨y−y^,y−y^⟩)≥0ρ^j(α)αρ^j(α)↓0α↑1
Epílogo : concéntrate en las ideas aquí. Realmente solo hay uno. El lema de la ortogonalidad hace casi todo el trabajo por nosotros. El resto es solo álgebra, notación y la capacidad de poner en práctica estos dos últimos.