Motivo para no reducir el término de sesgo (intercepción) en la regresión

21

Para un modelo lineal , el término de contracción siempre es . $y=\beta_0+x\beta+\varepsilon$ $P(\beta)$

¿Cuál es la razón por la que no término de sesgo (intercepción) ? ¿Deberíamos reducir el término de sesgo en los modelos de redes neuronales? $\beta_0$

— yliueagle
fuente

La biblioteca liblinear para la regresión logística como se usa en scikit-learn penaliza el término de sesgo (creo que este es un artefacto de implementación, el sesgo se maneja como una variable de entrada adicional)

— seanv507

33

Los elementos del aprendizaje estadístico por Hastie et al. definir cresta de regresión de la siguiente manera (la Sección 3.4.1, la ecuación es decir, excluye explícitamente el término de intercepción de la penalización de cresta.

\hat{β}^{r i d g e} = \underset{β}{a r g m i n} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2} + λ \sum_{j = 1}^{p} β_{j}^{2}},

$\hat \beta{}^\mathrm{ridge} = \underset{\beta}{\mathrm{argmin}}\left\{\sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2\right\},$

β_{0}

$\beta_0$

Luego escriben:

[...] observe que la intercepción ha quedado fuera del plazo de penalización. La penalización de la intercepción haría que el procedimiento dependa del origen elegido para ; es decir, la adición de una constante para cada uno de los objetivos no sería simplemente resultar en un cambio de las predicciones en la misma cantidad . $\beta_0$ $Y$ $c$ $y_i$ $c$

De hecho, en la presencia del término de intersección, añadiendo a todos simplemente llevará a aumentando en como valores bien y correspondientemente todas predichos también se incrementará en . Esto no es cierto si se penaliza la intersección: tendrá que aumentar en menos de . $c$ $y_i$ $\beta_0$ $c$ $\hat y_i$ $c$ $\beta_0$ $c$

De hecho, hay varias propiedades agradables y convenientes de regresión lineal que dependen de que exista un término de intercepción apropiado (sin convertir). Por ejemplo, el valor medio de y el valor medio de son iguales, y (en consecuencia) el cuadrado del coeficiente de correlación múltiple es igual al coeficiente de determinación : $y_i$ $\hat y_i$ $R$ $R^2$ veapor ejemplo, este hilo para una explicación:Interpretación geométrica del coeficiente de correlación múltiple y el coeficiente de determinación .

(R)^{2} = \cos^{2} (\hat{y}, y) = \frac{‖ \hat{y} ‖^{2}}{‖ y ‖^{2}} = R^{2},

$(R)^2 = \cos^2(\hat {\mathbf y}, \mathbf y) = \frac{\|\hat{\mathbf y}\|^2}{\|\mathbf y\|^2} = R^2,$

R

$R$

R^{2}

$R^2$

Penalizar la intercepción conduciría a que todo eso ya no sea cierto.

— ameba dice Reinstate Monica
fuente

2

Recordemos el propósito de la contracción o regularización. Es para evitar que el algoritmo de aprendizaje sobreajuste los datos de entrenamiento o, de manera equivalente, evite seleccionar valores de parámetros arbitrariamente grandes. Esto es más probable para conjuntos de datos con más de pocos ejemplos de capacitación en presencia de ruido (una discusión muy interesante sobre la presencia de ruido y su impacto se discute en "Aprendiendo de los datos" por Yaser Abu-Mustafa). Un modelo aprendido sobre datos ruidosos sin regularización probablemente funcionará mal en algunos puntos de datos invisibles.

Con esto en mente, imagine que tiene puntos de datos 2D que desea clasificar en dos clases. Una vez fijados todos los parámetros, excepto el sesgo, la variación del término de sesgo solo moverá el límite hacia arriba o hacia abajo. Puede generalizar esto a un espacio dimensional superior.

El algoritmo de aprendizaje no puede establecer valores arbitrariamente grandes para el término de sesgo, ya que esto dará como resultado un posible valor de pérdida bruta (el modelo no se ajustará a los datos de entrenamiento). En otras palabras, dado un conjunto de entrenamiento, usted (o un algoritmo de aprendizaje) no puede mover el avión arbitrariamente lejos del verdadero.

Por lo tanto, no hay razón para reducir el término de sesgo, el algoritmo de aprendizaje encontrará el correcto sin riesgo de sobreajuste.

Una nota final: vi en algún artículo que cuando se trabaja en espacios de alta dimensión para la clasificación, no hay una estricta necesidad de modelar el término de sesgo. Esto podría funcionar para datos separables linealmente ya que con más dimensiones agregadas, hay más posibilidades de separar las dos clases.

— Vladislavs Dovgalecs
fuente

¿Puede dar referencias para algunos artículos que dicen "cuando se trabaja en espacios de alta dimensión para la clasificación, no hay una necesidad estricta de modelar el término de sesgo"?

— chandresh

1

El término de intercepción no es absolutamente inmune a la contracción. La formulación general de "contracción" (es decir, regularización) coloca el término de regularización en la función de pérdida, por ejemplo:

$RSS(\beta) = \|y_i - X_i \beta \|^2$

$RegularizedLoss(\beta) = RSS(\beta) - \lambda f(\beta)$

Donde generalmente está relacionado con una norma de lebesgue, y es un escalar que controla cuánto peso le damos al término de contracción. $f(\beta)$ $\lambda$

$\beta$ $P(\beta)$ $\beta_0$ $y = X \beta + \epsilon$ $X$ $1's$

Ahora, no puedo hablar de regularización para redes neuronales. Es posible que, para las redes neuronales, desee evitar la reducción del término de sesgo o, de lo contrario, diseñar la función de pérdida regularizada de manera diferente a la formulación que describí anteriormente. Solo que no lo se. Pero sospecho firmemente que los términos de peso y sesgo se regularizan juntos.

— David Marx
fuente

2

Depende de la convención, pero, por ejemplo, The Elements of Statistical Learning de Hastie et al. defina la regresión de cresta de modo que la intercepción no sea penalizada (vea mi respuesta). Sospecho que esto podría ser más estándar que lo contrario.

— ameba dice Reinstate Monica

1

No estoy seguro de que la respuesta anterior de David Marx sea correcta; Según Andrew Ng, por convención, el coeficiente de sesgo / intersección generalmente no se regulariza en una regresión lineal y, en cualquier caso, si está regularizado o no, no hace una diferencia significativa.

— xenocyon
fuente

1

Daré la explicación más simple y luego la expandiré.

Supongamos que se reduce a cero, entonces su modelo se convierte efectivamente en:

y_{t} = ε_{t}

$y_t=\varepsilon_t$ Solo un problema con este modelo:

E [ε_{t}] = E [y_{t}] \neq 0

$E[\varepsilon_t]=E[y_t]\ne 0$ , que viola el supuesto de exogeneidad de la regresión lineal. Por lo tanto, los coeficientes estimados no tendrán buenas propiedades, como la imparcialidad.

Esto demuestra el propósito principal de la intercepción: capturar la media. Creo que mucha gente no se da cuenta de la importancia de la intercepción en la regresión lineal. A menudo se lo ve como un hermano pequeño menos sexy de lo "real" $\beta$ del predictor Sin embargo, como sabrán por "regresión a través del origen", eliminar la intercepción del modelo a menudo conduce a consecuencias indeseables.

Ahora, para completar si reduce todos los coeficientes de buena fe $\beta$ y mantener la intercepción $\beta_0$ fuera, obtienes esto:

y_{t} = β_{0 0} + ε_{t}

$y_t=\beta_0+\varepsilon_t$

mi [y_{t}] = β_{0 0} + mi [ε_{t}]

$E[y_t]=\beta_0+E[\varepsilon_t]$ Aquí todavía tenemos

E [ε_{t}] = 0

$E[\varepsilon_t]=0$ porque la intersección capturará la media de los datos

β_{0} = μ = E [y_{t}]

$\beta_0=\mu=E[y_t]$ .

Este modelo no es tan sexy como el modelo original, de hecho es bastante tonto. Sin embargo, es un modelo legítimo. Podría ejecutar ANOVA en él, por ejemplo.

Concluyendo, debe mantener la intercepción fuera de contracción para que haga lo que está destinado: capturar la media de la serie $\beta_0=E[y_t]$

— Aksakal
fuente