Los elementos del aprendizaje estadístico por Hastie et al. señala en P63 que:
la intercepción ha quedado fuera del plazo de penalizaciónθ0 0
Además, dice:
Las soluciones de cresta no son equivalentes bajo la escala de las entradas, por lo que normalmente se normalizan las entradas antes de resolver (3.41) (3.41 es la función de costo). Se puede mostrar (Ejercicio 3.5) que la solución a (3.41) se puede separar en dos partes, después de la reparametrización utilizando entradas centradas: cada se reemplaza por
Estimamos por
Los coeficientes restantes se estiman mediante una regresión de cresta sin interceptar, utilizando la centrada . En adelante, suponemos que este centrado se ha realizado, de modo que la matriz de entrada tieneX( i )jX( i )j-Xj¯¯¯¯¯.θ0 0y¯¯¯=1metro∑metroi = 1y( i )X( i )jXnorte(en lugar de ) columnas.n + 1
Aunque me pregunto por qué The Elements of Statistical Learning primero sugiere la estandarización de características y luego solo se realiza el centrado de características. Tal vez para estar de acuerdo con el ejercicio 3.5, que solo utiliza el centrado de funciones.
De todos modos, creo que es correcto aplicar la estandarización de puntaje z a las características. Así que ahora trato de resolver la derivada de la función de costo de la regresión de cresta siguiendo la sugerencia de la ameba comentarista anterior. ¡Muchas gracias!
Primero, la función de costo:
donde es la media del atributo y es la desviación estándar de . Para hacerlo más corto:
Ahora calculamos primero el valor de
∇θJ( θ ) =12∑i = 1metro(yyo-θ0 0-X( i )1-X1¯¯¯¯¯¯σ1θ1-X( i )2-X2¯¯¯¯¯¯σ2θ2- . . . -X( i )norte-Xnorte¯¯¯¯¯¯¯σnorteθnorte)2+ λ∑j = 1norteθ2j,
Xj¯¯¯¯¯¯XjσjXj∇θJ( θ ) =12∑i = 1metro(yyo-θ0 0-∑j = 1norteX( i )j-Xj¯¯¯¯¯¯σjθj)2+ λ∑j = 1norteθ2j
θ0 0en la expresión anterior estableciendo la derivada con respecto a igual a cero. Como no tiene , obtenemos:
Es decir:
As (porque es el media del atributo ), entonces ahora tenemos
θ0 0λ∑nortej = 1θ2jθ0 0∇θ0 0J( θ ) = -∑i = 1metro(yyo-θ0 0-∑j = 1norteX( i )j-Xj¯¯¯¯¯¯σjθj) = 0
∑i = 1metro(yyo-θ0 0) -∑i = 1metro∑j = 1norteX( i )j-Xj¯¯¯¯¯¯σjθj= 0
∑i = 1metro∑j = 1norteX( i )j-Xj¯¯¯¯¯¯σjθj= 0
Xj¯¯¯¯¯¯Xj∑i = 1metro(yyo-θ0 0) = 0 ,
obviamente:
θ0 0=y¯¯¯=1metro∑i = 1metroy( i )
Por lo tanto, la intersección de la regresión de cresta estandarizada por características es siempre . Por lo tanto, si primero centralizamos restando su media (get para el ejemplo de datos ), no incluimos todas las 1 columnas en , y luego hacemos estandarización de características en (get para del ejemplo de datos ) , la función de costo será simplemente
Eso es
y¯¯¯Y(yyo)′yoXX(X( i )j)′Xjyo
∇θJ( θ ) =12∑i = 1metro( (yyo)′-∑j = 1norte(X( i )j)′θj)2+ λ∑j = 1norteθ2j
∇θJ( θ ) =12(X′θ -Y′)T(X′θ -Y′) +Λ(θ)Tθ ,
donde , no tiene toda la columna 1 y estandarizado de , está centrada con respecto a . Ahora (sin ) se puede resolver con:
Para características estandarizadas, el modelo lineal será
donde
θ =⎡⎣⎢⎢⎢θ1θ2. . .θnorte⎤⎦⎥⎥⎥X′XY′Yθθ0 0θ = ( (X′)TX′+ λ ∗ I)- 1(X′)TY′
y=y¯¯¯+ θ1X′1+ θ2X′2+ . . . + θnorteX′norte- - - ( 1 ) ,
X′yo=Xyo-Xyo¯¯¯¯¯¯σyo- - - ( 2 )
Si usamos (2) en (1) como se sugiere en la respuesta de
Plasty Grove . Entonces, para los datos de entrada de origen, el modelo lineal será
Eso es
Es por eso que después de resolver los coeficientes de las características estandarizadas, para devolver los coeficientes de los datos de entrada de origen (sin estandarizar características), debemos devolver
y=y¯¯¯+X1-X1¯¯¯¯¯¯σ1θ1+X2-X2¯¯¯¯¯¯σ2θ2+ . . . +Xnorte-Xnorte¯¯¯¯¯¯¯σnorteθnorte
y=θ1σ1X1+θ2σ2X2+ . . . +θnorteσnorteXnorte+y¯¯¯-X1¯¯¯¯¯¯σ1θ1-X2¯¯¯¯¯¯σ2θ2- . . . -Xnorte¯¯¯¯¯¯¯σnorteθnorte
θyo/ /σyo