¿La normalización L2 de la regresión de cresta castiga la intercepción? Si no, ¿cómo resolver su derivada?

Soy nuevo en ML. Me informaron que la normalización L2 de la regresión de cresta no castiga la intercepción . Como en la función de costo: El término de normalización L2 solo suma de a , no de a . También leí eso: $\theta_{0}$

\nabla_{θ} J (θ) = \frac{1}{2} \sum_{i = 1}^{m} (h_{\vec{θ}} (x^{(i)}) - y^{(i)})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}

$\nabla_{\theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\vec \theta}(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

λ \sum_{j = 1}^{n} θ_{j}^{2}

$\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

j = 1

$j=1$

n

$n$

j = 0

$j=0$

n

$n$

en la mayoría de los casos (¿todos los casos?), es mejor no regularizar , ya que es poco probable que reduzca el sobreajuste y reduzca el espacio de funciones representables $\theta_{0}$

que proviene de la última respuesta del usuario 48956 de ¿Por qué un modelo de regresión lineal de intersección cero predice mejor que un modelo con una intersección?

Estoy confundido acerca de cómo resolver la derivada de la función de costo, ya que: donde , y .

\nabla_{θ} J (θ) = \frac{1}{2} （ X θ - Y ）^{T} （ X θ - Y ） + λ (θ^{^{'}})^{T} θ^{^{'}},

$\nabla_{\theta}J(\theta)=\frac{1}{2}（X\theta-Y）^{T}（X\theta-Y）+\lambda(\theta^{'})^{T}\theta^{'},$

θ^{^{'}} = [\begin{matrix} θ_{1} \\ θ_{2} \\ . . . \\ θ_{n} \end{matrix}]

$\theta^{'}=\left[ \begin{matrix} \theta_{1} \\ \theta_{2} \\ ...\\ \theta_{n} \end{matrix} \right]$

θ = [\begin{matrix} θ_{0} \\ θ_{1} \\ . . . \\ θ_{n} \end{matrix}]

$\theta=\left[ \begin{matrix} \theta_{0} \\ \theta_{1} \\ ...\\ \theta_{n} \end{matrix} \right]$

X = [\begin{matrix} 1 & X_{1}^{(1)} & X_{2}^{(1)} & . . . & X_{n}^{(1)} \\ 1 & X_{1}^{(2)} & X_{2}^{(2)} & . . . & X_{n}^{(2)} \\ . . . \\ 1 & X_{1}^{(m)} & X_{2}^{(m)} & . . . & X_{n}^{(m)} \end{matrix}]

$X=\left[ \begin{matrix} 1 & X_{1}^{(1)} & X_{2}^{(1)} & ...& X_{n}^{(1)} \\ 1 & X_{1}^{(2)} & X_{2}^{(2)} & ...& X_{n}^{(2)} \\ ...\\ 1 & X_{1}^{(m)} & X_{2}^{(m)} & ...& X_{n}^{(m)} \end{matrix} \right]$

$\theta^{'}$ y son diferentes. Por lo tanto, no se pueden mezclar desde mi punto de vista. Y la derivada es acerca de , que contiene . Después de buscar en Google y ver las preguntas en este foro, todavía no hay forma de obtener la solución: ¿Alguien puede darme una pista? ¡Gracias de antemano por tu ayuda! $\theta$ $\theta$ $\theta^{'}$

θ = (X^{T} X + λ * I)^{- 1} X^{T} Y

$\theta=(X^TX+\lambda*I)^{-1}X^TY$

Sin embargo, creo que hay dos soluciones rápidas a este problema:

En primer lugar, no añadimos toda la columna de la 1 a . A saber, . Es decir, no incluimos la intersección en absoluto en el modelo: Creo que este método se adoptó en el clásico libro Machine Learning in Action de Peter Harrington que estoy leyendo actualmente. En su implementación de regresión de cresta (P166 y P177 si también tiene el libro), toda la pasada a la regresión de cresta no tiene la columna 1. $X$ $X=\left[ \begin{matrix} X_{1}^{(1)} & X_{2}^{(1)} & ...& X_{n}^{(1)} \\ X_{1}^{(2)} & X_{2}^{(2)} & ...& X_{n}^{(2)} \\ ...\\ X_{1}^{(m)} & X_{2}^{(m)} & ...& X_{n}^{(m)} \end{matrix} \right]$

y = θ_{1} X_{1} + θ_{2} X_{2} + . . . + θ_{n} X_{n} .

$y=\theta_{1}X_{1}+\theta_{2}X_{2}+...+\theta_{n}X_{n}.$

X

$X$

En segundo lugar, la intercepción también está siendo castigada en la realidad.

La regresión logística de scikit regulariza la intercepción por defecto.

que una vez más proviene de la última respuesta del usuario 48956 de ¿Por qué un modelo de regresión lineal de intersección cero predice mejor que un modelo con una intersección?

Ambas soluciones rápidas conducen a la solución

θ = (X^{T} X + λ * I)^{- 1} X^{T} Y .

$\theta=(X^TX+\lambda*I)^{-1}X^TY.$

Entonces, ¿se puede resolver la derivada de la normalización L2 de la regresión de cresta o solo se resuelven con soluciones rápidas?

machine-learning ridge-regression

— Naomi
fuente

Consulte también stats.stackexchange.com/questions/86991 . La respuesta a su Q es que todo se puede resolver: simplemente descomponga el primer término en theta_0 y theta_prime. Puede resolver de inmediato para theta_0 óptimo: es la media general. Llevar a su "solución rápida # 1" como la solución adecuada para theta_prime en los datos sustraídos medios.

— ameba

La segunda solución es bastante universalmente considerada incorrecta. La penalización de la intercepción es uno de los pocos errores de diseño en sklearn.

— Matthew Drury el

@MatthewDrury Creo que mencioné un truco para "arreglar" esto y te puso triste. Pero quiero decirle a OP que el truco es hacer una gran intercepción, como 1e9. Entonces la regularización tiene poco efecto en ello.

— Haitao Du

Yah, recuerdas correctamente, cada vez que hago eso muero un poco por dentro.

— Matthew Drury el

@amoeba ¡Muchas gracias! Calculo la solución en mi respuesta bajo su guía. ¿Me pueden ayudar a comprobarlo? Lo que es más, descubro que Machine Learning in Action resta la media de y no agrega la columna 1 a que son las dos formas correctas de hacerlo. Sin embargo, al realizar la estandarización de funciones, divide por varianza, no por desviación estándar. Hice otra pregunta para esto: no por desviación estándar ¿Me pueden ayudar de nuevo en esta pregunta? ¡Gracias!

Y

$Y$

X

$X$

X - μ

$X-\mu$

— Naomi

Los elementos del aprendizaje estadístico por Hastie et al. señala en P63 que:

la intercepción ha quedado fuera del plazo de penalización $\theta_{0}$

Además, dice:

Las soluciones de cresta no son equivalentes bajo la escala de las entradas, por lo que normalmente se normalizan las entradas antes de resolver (3.41) (3.41 es la función de costo). Se puede mostrar (Ejercicio 3.5) que la solución a (3.41) se puede separar en dos partes, después de la reparametrización utilizando entradas centradas: cada se reemplaza por Estimamos por Los coeficientes restantes se estiman mediante una regresión de cresta sin interceptar, utilizando la centrada . En adelante, suponemos que este centrado se ha realizado, de modo que la matriz de entrada tiene $X_{j}^{(i)}$ $X_{j}^{(i)}-\overline{x_{j}}.$ $\theta_{0}$ $\overline{y}=\frac{1}{m}\sum_{i=1}^{m}y^{(i)}$ $X_{j}^{(i)}$ $X$ $n$ (en lugar de ) columnas. $n + 1$

Aunque me pregunto por qué The Elements of Statistical Learning primero sugiere la estandarización de características y luego solo se realiza el centrado de características. Tal vez para estar de acuerdo con el ejercicio 3.5, que solo utiliza el centrado de funciones.

De todos modos, creo que es correcto aplicar la estandarización de puntaje z a las características. Así que ahora trato de resolver la derivada de la función de costo de la regresión de cresta siguiendo la sugerencia de la ameba comentarista anterior. ¡Muchas gracias!

Primero, la función de costo: donde es la media del atributo y es la desviación estándar de . Para hacerlo más corto: Ahora calculamos primero el valor de

\nabla_{θ} J (θ) = \frac{1}{2} \sum_{yo = 1}^{metro} (y_{yo} - θ_{0 0} - \frac{X_{1}^{(yo)} - \bar{X_{1}}}{σ_{1}} θ_{1} - \frac{X_{2}^{(yo)} - \bar{X_{2}}}{σ_{2}} θ_{2} - . . . - \frac{X_{norte}^{(yo)} - \bar{X_{norte}}}{σ_{norte}} θ_{norte})^{2} + λ \sum_{j = 1}^{norte} θ_{j}^{2},

$\nabla_{ \theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y_{i}-\theta_{0}-\frac{X_{1}^{(i)}-\overline{X_1}}{\sigma_1}\theta_1-\frac{X_{2}^{(i)}-\overline{X_2}}{\sigma_2}\theta_2-...-\frac{X_{n}^{(i)}-\overline{X_n}}{\sigma_n}\theta_n)^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}},$

\bar{X_{j}}

$\overline{X_j}$

X_{j}

$X_{j}$

σ_{j}

$\sigma_j$

X_{j}

$X_{j}$

\nabla_{θ} J (θ) = \frac{1}{2} \sum_{yo = 1}^{metro} (y_{yo} - θ_{0 0} - \sum_{j = 1}^{norte} \frac{X_{j}^{(yo)} - \bar{X_{j}}}{σ_{j}} θ_{j})^{2} + λ \sum_{j = 1}^{norte} θ_{j}^{2}

$\nabla_{ \theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y_{i}-\theta_{0}-\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j)^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

θ_{0}

$\theta_0$ en la expresión anterior estableciendo la derivada con respecto a igual a cero. Como no tiene , obtenemos: Es decir: As (porque es el media del atributo ), entonces ahora tenemos

θ_{0}

$\theta_0$

λ \sum_{j = 1}^{n} θ_{j}^{2}

$\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

θ_{0}

$\theta_{0}$

\nabla_{θ_{0 0}} J (θ) = - \sum_{yo = 1}^{metro} (y_{yo} - θ_{0 0} - \sum_{j = 1}^{norte} \frac{X_{j}^{(yo)} - \bar{X_{j}}}{σ_{j}} θ_{j}) = 0 0

$\nabla_{ \theta_0}J(\theta)=-\sum_{i=1}^{m}(y_{i}-\theta_{0}-\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j)=0$

\sum_{yo = 1}^{metro} (y_{yo} - θ_{0 0}) - \sum_{yo = 1}^{metro} \sum_{j = 1}^{norte} \frac{X_{j}^{(yo)} - \bar{X_{j}}}{σ_{j}} θ_{j} = 0 0

$\sum_{i=1}^{m}(y_{i}-\theta_{0})-\sum_{i=1}^{m}\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j=0$

\sum_{yo = 1}^{metro} \sum_{j = 1}^{norte} \frac{X_{j}^{(yo)} - \bar{X_{j}}}{σ_{j}} θ_{j} = 0 0

$\sum_{i=1}^{m}\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j=0$

\bar{X_{j}}

$\overline{X_j}$

X_{j}

$X_{j}$

\sum_{yo = 1}^{metro} (y_{yo} - θ_{0 0}) = 0 0,

$\sum_{i=1}^{m}(y_{i}-\theta_{0})=0,$ obviamente:

θ_{0 0} = \bar{y} = \frac{1}{metro} \sum_{yo = 1}^{metro} y^{(yo)}

$\theta_0=\overline{y}=\frac{1}{m}\sum_{i=1}^{m}y^{(i)}$

Por lo tanto, la intersección de la regresión de cresta estandarizada por características es siempre . Por lo tanto, si primero centralizamos restando su media (get para el ejemplo de datos ), no incluimos todas las 1 columnas en , y luego hacemos estandarización de características en (get para del ejemplo de datos ) , la función de costo será simplemente Eso es $\overline{y}$ $Y$ $(y_i)^{'}$ $i$ $X$ $X$ $(X_j^{(i)})^{'}$ $X_{j}$ $i$

\nabla_{θ} J (θ) = \frac{1}{2} \sum_{yo = 1}^{metro} ((y_{yo})^{^{'}} - \sum_{j = 1}^{norte} (X_{j}^{(yo)})^{^{'}} θ_{j})^{2} + λ \sum_{j = 1}^{norte} θ_{j}^{2}

$\nabla_{ \theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}((y_{i})^{'}-\sum_{j=1}^{n}(X_j^{(i)})^{'}\theta_j)^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

\nabla_{θ} J (θ) = \frac{1}{2} （ X^{^{'}} θ - Y^{^{'}} ）^{T} （ X^{^{'}} θ - Y^{^{'}} ） + λ (θ)^{T} θ,

$\nabla_{\theta}J(\theta)=\frac{1}{2}（X^{'}\theta-Y^{'}）^{T}（X^{'}\theta-Y^{'}）+\lambda(\theta)^{T}\theta,$ donde , no tiene toda la columna 1 y estandarizado de , está centrada con respecto a . Ahora (sin ) se puede resolver con: Para características estandarizadas, el modelo lineal será donde

θ = [\begin{matrix} θ_{1} \\ θ_{2} \\ . . . \\ θ_{n} \end{matrix}]

$\theta=\left[ \begin{matrix} \theta_1 \\ \theta_2 \\ ...\\ \theta_n \end{matrix} \right]$

X^{^{'}}

$X^{'}$

X

$X$

Y^{^{'}}

$Y^{'}$

Y

$Y$

θ

$\theta$

θ_{0}

$\theta_0$

θ = ((X^{^{'}})^{T} X^{^{'}} + λ * yo)^{- 1} (X^{^{'}})^{T} Y^{^{'}}

$\theta=((X^{'})^TX^{'}+\lambda*I)^{-1}(X^{'})^TY^{'}$

y = \bar{y} + θ_{1} X_{1}^{^{'}} + θ_{2} X_{2}^{^{'}} + . . . + θ_{norte} X_{norte}^{^{'}} - - - (1),

$y=\overline{y}+\theta{_1}X_1^{'}+\theta{_2}X_2^{'}+...+\theta{_n}X_n^{'}---(1),$

X_{yo}^{^{'}} = \frac{X_{yo} - \bar{X_{yo}}}{σ_{yo}} - - - (2)

$X_i^{'}=\frac{X_{i}-\overline{X_i}}{\sigma_i}---(2)$ Si usamos (2) en (1) como se sugiere en la respuesta de Plasty Grove . Entonces, para los datos de entrada de origen, el modelo lineal será Eso es Es por eso que después de resolver los coeficientes de las características estandarizadas, para devolver los coeficientes de los datos de entrada de origen (sin estandarizar características), debemos devolver

y = \bar{y} + \frac{X_{1} - \bar{X_{1}}}{σ_{1}} θ_{1} + \frac{X_{2} - \bar{X_{2}}}{σ_{2}} θ_{2} + . . . + \frac{X_{norte} - \bar{X_{norte}}}{σ_{norte}} θ_{norte}

$y=\overline{y}+\frac{X_{1}-\overline{X_1}}{\sigma_1}\theta_1+\frac{X_{2}-\overline{X_2}}{\sigma_2}\theta_2+...+\frac{X_{n}-\overline{X_n}}{\sigma_n}\theta_n$

y = \frac{θ_{1}}{σ_{1}} X_{1} + \frac{θ_{2}}{σ_{2}} X_{2} + . . . + \frac{θ_{norte}}{σ_{norte}} X_{norte} + \bar{y} - \frac{\bar{X_{1}}}{σ_{1}} θ_{1} - \frac{\bar{X_{2}}}{σ_{2}} θ_{2} - . . . - \frac{\bar{X_{norte}}}{σ_{norte}} θ_{norte}

$y=\frac{\theta_1}{\sigma_1}X_1+\frac{\theta_2}{\sigma_2}X_2+...+\frac{\theta_n}{\sigma_n}X_n+\overline{y}-\frac{\overline{X_1}}{\sigma_1}\theta_1-\frac{\overline{X_2}}{\sigma_2}\theta_2-...-\frac{\overline{X_n}}{\sigma_n}\theta_n$

θ_{i} / σ_{i}

$\theta_i/\sigma_i$

— Naomi
fuente

Buen ejemplo detallado. Un par de comentarios: usted comenta sobre el efecto de centrar , pero para omitir un término de intercepción y obtener estimaciones correctas, también se deben centrar todas las característicasSin embargo, estoy de acuerdo en que este ejemplo concuerda con la justificación de no penalizar el término de intercepción (para obtener una inferencia consistente). En segundo lugar, la intuición debería servir para algo aquí. Todos aceptamos que predecir por su media es similar a un modelo de parámetro 0, así que para obtener el efecto aditivo de en el modelo, no hay que penalizar el término que simplemente coge el efecto medio-Y en presencia de .

Y

$Y$

X

$X$

Y

$Y$

X

$X$

X

$X$

— AdamO