Para un modelo lineal , el término de contracción siempre es .
¿Cuál es la razón por la que no término de sesgo (intercepción) ? ¿Deberíamos reducir el término de sesgo en los modelos de redes neuronales?
Para un modelo lineal , el término de contracción siempre es .
¿Cuál es la razón por la que no término de sesgo (intercepción) ? ¿Deberíamos reducir el término de sesgo en los modelos de redes neuronales?
Respuestas:
Los elementos del aprendizaje estadístico por Hastie et al. definir cresta de regresión de la siguiente manera (la Sección 3.4.1, la ecuación es decir, excluye explícitamente el término de intercepción β 0 de la penalización de cresta.
Luego escriben:
[...] observe que la intercepción ha quedado fuera del plazo de penalización. La penalización de la intercepción haría que el procedimiento dependa del origen elegido para Y ; es decir, la adición de una constante c para cada uno de los objetivos y i no sería simplemente resultar en un cambio de las predicciones en la misma cantidad c .
De hecho, en la presencia del término de intersección, añadiendo a todos y i simplemente llevará a ß 0 aumentando en c como valores bien y correspondientemente todas predichos y i también se incrementará en c . Esto no es cierto si se penaliza la intersección: β 0 tendrá que aumentar en menos de c .
De hecho, hay varias propiedades agradables y convenientes de regresión lineal que dependen de que exista un término de intercepción apropiado (sin convertir). Por ejemplo, el valor medio de y el valor medio de y i son iguales, y (en consecuencia) el cuadrado del coeficiente de correlación múltiple R es igual al coeficiente de determinación R 2 : ( R ) 2 = cos 2 ( y , y ) = ‖ y ‖ 2vea,por ejemplo, este hilo para una explicación:Interpretación geométrica del coeficiente de correlación múltipleRy el coeficiente de determinaciónR2.
Penalizar la intercepción conduciría a que todo eso ya no sea cierto.
Recordemos el propósito de la contracción o regularización. Es para evitar que el algoritmo de aprendizaje sobreajuste los datos de entrenamiento o, de manera equivalente, evite seleccionar valores de parámetros arbitrariamente grandes. Esto es más probable para conjuntos de datos con más de pocos ejemplos de capacitación en presencia de ruido (una discusión muy interesante sobre la presencia de ruido y su impacto se discute en "Aprendiendo de los datos" por Yaser Abu-Mustafa). Un modelo aprendido sobre datos ruidosos sin regularización probablemente funcionará mal en algunos puntos de datos invisibles.
Con esto en mente, imagine que tiene puntos de datos 2D que desea clasificar en dos clases. Una vez fijados todos los parámetros, excepto el sesgo, la variación del término de sesgo solo moverá el límite hacia arriba o hacia abajo. Puede generalizar esto a un espacio dimensional superior.
El algoritmo de aprendizaje no puede establecer valores arbitrariamente grandes para el término de sesgo, ya que esto dará como resultado un posible valor de pérdida bruta (el modelo no se ajustará a los datos de entrenamiento). En otras palabras, dado un conjunto de entrenamiento, usted (o un algoritmo de aprendizaje) no puede mover el avión arbitrariamente lejos del verdadero.
Por lo tanto, no hay razón para reducir el término de sesgo, el algoritmo de aprendizaje encontrará el correcto sin riesgo de sobreajuste.
Una nota final: vi en algún artículo que cuando se trabaja en espacios de alta dimensión para la clasificación, no hay una estricta necesidad de modelar el término de sesgo. Esto podría funcionar para datos separables linealmente ya que con más dimensiones agregadas, hay más posibilidades de separar las dos clases.
El término de intercepción no es absolutamente inmune a la contracción. La formulación general de "contracción" (es decir, regularización) coloca el término de regularización en la función de pérdida, por ejemplo:
Donde generalmente está relacionado con una norma de lebesgue, y λ es un escalar que controla cuánto peso le damos al término de contracción.
Ahora, no puedo hablar de regularización para redes neuronales. Es posible que, para las redes neuronales, desee evitar la reducción del término de sesgo o, de lo contrario, diseñar la función de pérdida regularizada de manera diferente a la formulación que describí anteriormente. Solo que no lo se. Pero sospecho firmemente que los términos de peso y sesgo se regularizan juntos.
No estoy seguro de que la respuesta anterior de David Marx sea correcta; Según Andrew Ng, por convención, el coeficiente de sesgo / intersección generalmente no se regulariza en una regresión lineal y, en cualquier caso, si está regularizado o no, no hace una diferencia significativa.
Daré la explicación más simple y luego la expandiré.
Supongamos que se reduce a cero, entonces su modelo se convierte efectivamente en:
Esto demuestra el propósito principal de la intercepción: capturar la media. Creo que mucha gente no se da cuenta de la importancia de la intercepción en la regresión lineal. A menudo se lo ve como un hermano pequeño menos sexy de lo "real"del predictor Sin embargo, como sabrán por "regresión a través del origen", eliminar la intercepción del modelo a menudo conduce a consecuencias indeseables.
Ahora, para completar si reduce todos los coeficientes de buena fe y mantener la intercepción fuera, obtienes esto:
Este modelo no es tan sexy como el modelo original, de hecho es bastante tonto. Sin embargo, es un modelo legítimo. Podría ejecutar ANOVA en él, por ejemplo.
Concluyendo, debe mantener la intercepción fuera de contracción para que haga lo que está destinado: capturar la media de la serie