¿Por qué se agrega el término de regularización * a la función de costo (en lugar de multiplicado, etc.)?

51

Siempre que se utiliza la regularización, a menudo se agrega a la función de costo, como en la siguiente función de costo. Esto tiene sentido intuitivo para mí ya que minimiza la función de costo significa minimizar el error (el término izquierdo) y minimizar las magnitudes de los coeficientes (el término correcto) al mismo tiempo (o al menos equilibrar las dos minimizaciones).

J (θ) = \frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T} + α ‖ θ ‖_{2}^{2}

$J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2$

Mi pregunta es ¿por qué este término de regularización $\alpha\|\theta\|_2^2$ agrega a la función de costo original y no se multiplica o algo más que mantiene el espíritu de motivación detrás de la idea de la regularización? ¿Es porque si simplemente agregamos el término en él es suficientemente simple y nos permite resolver esto analíticamente o hay alguna razón más profunda?

regularization

— Grenmester
fuente

1

Otro argumento es a través del teorema del representante,

— jkabrg

2

multiplicador lagrangiano

— Haitao Du

99

Si tiene más variables independientes que observaciones, entonces puede obtener

\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}

$\frac 1 2(y-\theta X^T)(y-\theta X^T)^T$ a cero de varias maneras diferentes, por lo que multiplicar por cualquier cosa no ayuda a distinguir un modelo útil

— Henry

47

Tiene una intuición bastante agradable en el marco bayesiano. Considere que la función de costo regularizado $J$ tiene una función similar a la probabilidad de una configuración de parámetros $\theta$ dadas las observaciones $X, y$ . Aplicando el teorema de Bayes, obtenemos:

P (θ | X, y) = \frac{P (X, y | θ) P (θ)}{P (X, y)} .

$P(\theta|X,y) = \frac{P(X,y|\theta)P(\theta)}{P(X,y)}.$

Tomar el registro de la expresión nos da:

\log P (θ | X, y) = \log P (X, y | θ) + \log P (θ) - \log P (X, y) .

$\log P(\theta|X,y) = \log P(X,y|\theta) + \log P(\theta) - \log P(X,y).$

Ahora, digamos que es el negativo ¹ log-posterior, . Como el último término no depende de , podemos omitirlo sin cambiar el mínimo. Te quedan dos términos: 1) el término de probabilidad dependiendo de e , y 2) el término anterior dependiendo solo de . Estos dos términos corresponden exactamente al término de datos y al término de regularización en su fórmula. $J(\theta)$ $-\log P(\theta|X,y)$ $\theta$ $\log P(X,y|\theta)$ $X$ $y$ $\log P(\theta)$ $\theta$

Puede ir aún más lejos y demostrar que la función de pérdida que publicó corresponde exactamente al siguiente modelo:

P (X, y | θ) = N (y | θ X, σ_{1}^{2}),

$P(X,y|\theta) = \mathcal{N}(y|\theta X, \sigma_1^2),$

P (θ) = N (θ | 0, σ_{2}^{2}),

$P(\theta) = \mathcal{N}(\theta | 0, \sigma_2^2),$

donde los parámetros provienen de una distribución gaussiana de media cero y las observaciones tienen ruido gaussiano de media cero. Para más detalles ver esta respuesta . $\theta$ $y$

¹ Negativo ya que desea maximizar la probabilidad pero minimizar el costo.

— Jan Kukacka
fuente

55

Estoy un poco insatisfecho con esta respuesta porque solo muestra la correspondencia entre la función de costo y el log-posterior. Si el costo no correspondiera con el log-posterior sino con el posterior en sí mismo, concluiríamos que la regularización debería multiplicarse por el costo no regularizado (como preguntó el OP). - Para justificar adecuadamente esta respuesta, deberá justificar por qué es el log-posterior lo que estamos equiparando con el costo. (De alguna manera te va con el "ir más allá", pero te vuelves un poco ondulado en ese punto.)

— RM

1

@RM, punto válido. Hay una razón: es porque las funciones de pérdida estándar utilizadas en el aprendizaje automático corresponden al logaritmo posterior más que al posterior en sí. ¿Por qué? Porque usan la minimización empírica del riesgo; , y las funciones de pérdida estándar generalmente toman la forma donde es una función de pérdida que tiene una interpretación sensata como una probabilidad log-posterior. (Sospecho que sabes esto, pero lo estoy explicando a otros visitantes).

\log P (X_{1}, \dots, X_{n}, y_{1}, \dots, y_{n} | θ) = \sum_{i} \log P (X_{i}, y_{i} | θ)

$\log P(X_1,\dots,X_n,y_1,\dots,y_n|\theta) = \sum_i \log P(X_i,y_i|\theta)$

\sum_{i} f (X_{i}, y_{i}, θ_{i})

$\sum_i f(X_i,y_i,\theta_i)$

f

$f$

— DW

@RM Si tiene algún costo , siempre podría redefinir su problema en términos de . En otras palabras, sea cual sea su función de costo, define una distribución basada en dividida por alguna constante de normalización que puede ignorar al usar métodos MCMC. El hecho de que siempre se puede reformular en términos de una exponencial es muy importante para, por ejemplo, recocido simulado, muestreadores MCMC, etc.

C

$C$

C = \exp \ln C

$C = \exp{\ln C}$

\exp \ln C

$\exp{\ln C}$

— Ely

@RM, por ejemplo, considere este artículo de Jun Liu (y hay un comentario similar en el libro MCMC de Liu), donde en la página 3 en la parte inferior dice: "Let sea la distribución de probabilidad objetivo bajo investigación (presumiblemente, todos los archivos PDF se pueden escribir de esta forma) "(énfasis agregado). Entonces, desde el punto de vista bayesiano, donde la porción de la parte posterior definida por el modelo de probabilidad sería esta función de pérdida, esta descomposición bayesiana para esta respuesta sería completamente general.

π (x) = c \exp - h (x)

$\pi(x) = c\exp{-h(x)}$

— ely

¡Gracias por la respuesta! Estoy tratando de entender el "eso" al comienzo de tu publicación: ¿qué es exactamente lo que estás afirmando que tiene una buena intuición dentro del marco bayesiano? ¿La razón fundamental por la que agregar penalizaciones da buenos estimadores? o la razón histórica (y no estadística) por la cual las personas usan estos estimadores aditivos? (Como intentaba que mi fraseo sugiriera, creo que su respuesta aborda la razón histórica en lugar de una razón estadística.)

— user795305

34

Jan y Cagdas dan una buena razón bayesiana, interpretando el regularizador como un prior. Aquí hay algunos no bayesianos:

Si su objetivo no regularizado es convexo y agrega un regularizador convexo, su objetivo total seguirá siendo convexo. Esto no será cierto si lo multiplica, o la mayoría de los otros métodos de combinación. La optimización convexa es realmente muy buena en comparación con la optimización no convexa; Si la formulación convexa funciona, es mejor hacerlo.
A veces conduce a una forma cerrada muy simple, como wpof menciona es el caso de la regresión de cresta.
Si piensa en el problema que "realmente" quiere resolver como un problema con una restricción fuerte entonces su dual de Lagrange es el problema Aunque no tiene que usar la dualidad de Lagrange, se entiende mucho al respecto.
$min_{θ : c (θ) \leq 0} J (θ),$ $\min_{\theta : c(\theta) \le 0} J(\theta) ,$ $min_{θ} J (θ) + λ c (θ) .$ $\min_\theta J(\theta) + \lambda c(\theta) .$
Como mencionó ogogmad , el teorema del representador se aplica al caso de una penalización aditiva: si desea optimizar en todo el espacio de funciones del núcleo de reproducción Hilbert , entonces sabemos que la solución a la optimización en todo el espacio encuentra en un simple subespacio de dimensión finita para muchas pérdidas ; No sé si esto sería válido para un regularizador multiplicativo (aunque podría). Esta es la base de los SVM del kernel. $f$ $\mathcal H$
$min_{f \in H} J (f) + λ ‖ f ‖_{H}^{2}$ $\min_{f \in \mathcal H} J(f) + \lambda \lVert f \rVert_{\mathcal H}^2$ $J$
Si estás haciendo un aprendizaje profundo o algo no convexo de todos modos: las pérdidas aditivas dan gradientes aditivos simples. Para el simple regularizador que le diste, se convierte en una pérdida de peso muy simple . Pero incluso para un regularizador más complicado, por ejemplo el WGAN-GP 's pérdida es más fácil para la retropropagación calcular gradientes cuando solo tiene que considerar la suma de la pérdida y el complicado regularizador (considerando las cosas por separado), en lugar de tener que Hacer la regla del producto. $L_2$
$\sum_{x, y} \underset{the loss}{\underset{⏟}{f_{θ} (x) - f_{θ} (y)}} + λ \underset{the regularizer}{\underset{⏟}{{\hat{E}}_{α \sim U n i f o r m (0, 1)} {(‖ \nabla f_{θ} (α x + (1 - α) y) ‖ - 1)}^{2}}},$ $\sum_{x,y} \underbrace{f_\theta(x) - f_\theta(y)}_\text{the loss} + \lambda \underbrace{\mathbb{\hat E}_{\alpha \sim \mathrm{Uniform}(0, 1)} \left( \lVert \nabla f_\theta(\alpha x + (1 - \alpha) y) \rVert - 1\right)^2}_\text{the regularizer},$
Las pérdidas aditivas también son susceptibles al algoritmo de optimización ADMM popular y otros algoritmos basados en "descomposición".

Ninguna de estas son reglas estrictas, y de hecho a veces un regularizador multiplicativo (o algún otro) podría funcionar mejor (como señala ogogmad ). (¡De hecho, el otro día presenté un documento sobre cómo algo que podría interpretar como un regularizador multiplicativo funciona mejor que el aditivo WGAN-GP anterior!) Pero espero que esto ayude a explicar por qué los regularizadores aditivos son "el valor predeterminado".

— Dougal
fuente

2

+1. ¡Buena suerte con tu presentación [presumiblemente NIPS]!

— ameba dice Reinstate Monica

13

Desea minimizar ambos términos en la función objetivo. Por lo tanto, debe desacoplar los términos. Si multiplica los términos, puede tener un término grande y el otro muy bajo. Entonces, todavía terminas con un valor bajo de la función objetivo, pero con un resultado indeseable.

Puede terminar con un modelo que tiene la mayoría de las variables cercanas a cero sin poder predictivo.

La función objetivo, que es la función que debe minimizarse, puede construirse como la suma de la función de costo y los términos de regularización.

En caso de que ambos sean independientes entre sí, obtendrá los valores ilustrados en la primera figura para el objetivo. Verá en el caso de la suma, solo hay un mínimo en (0, 0). En el caso del producto tienes ambigüedad. Tiene toda una hiper-superficie igual a cero en (x = 0 o y = 0). Entonces, el algoritmo de optimización puede terminar en cualquier lugar dependiendo de su inicialización. Y no puede decidir qué solución es mejor.

— Sören
fuente

10

Puede probar otras operaciones binarias ( ) y ver cómo se comparan. $\max,\min,\times$

El problema con y es que si el error es , la penalización regularizada será . Esto permite que el modelo se sobreajuste. $\min$ $\times$ $0$ $0$

El problema con es que terminas minimizando la "más dura" de las dos penalizaciones (error de entrenamiento o regularización) pero no la otra. $\max$

Por el contrario, es simple y funciona. $+$

Puede preguntar por qué no otras operaciones binarias. No hay argumento que pueda descartarlos, entonces, ¿por qué no?

— jkabrg
fuente

8

Creo que tienes una pregunta válida. Para darle una respuesta adecuada, deberá comprender la naturaleza probabilística del problema.

En general, el problema que estamos tratando de resolver es el siguiente: Dados los datos ¿cuál es la distribución de hipótesis que explica estos datos? Cuando decimos hipótesis nos referimos a un PDF (al menos en este contexto). Y una distribución de hipótesis es un PDF de PDF, es decir, . $D$ $p(H | D)$

$p(H | D)$ es una distribución de más de hipótesis dadas . Si podemos encontrar esto, entonces podemos seleccionar una de estas hipótesis, por ejemplo, la que tiene la mayor probabilidad, o podemos elegir promediar sobre todas ellas. Un enfoque algo más fácil es atacar el problema desde una dirección diferente utilizando el Teorema de Bayes. $D$

$p (H | D) = \frac{p (D | H) \times p (H)}{p (D)}$ $p(H|D) = \frac{p(D|H)\times p(H)}{p(D)}$
$p(D|H)$ es una de las hipótesis, también se llama probabilidad. es la distribución de las hipótesis en nuestro universo de hipótesis antes de observar los datos. Después de observar los datos, actualizamos nuestras creencias. $p(H)$
$p(D)$ es el promedio de las hipótesis antes de actualizar nuestras creencias.

Ahora, si tomamos el de ambos lados de la ecuación de Bayes, obtenemos: $-\log$

- \log [p (H | D)] = - \log [p (D | H)] - \log [p (H)] + \log [p (D)]

$-\log [p(H|D)] = -\log [p(D|H)] -\log [p(H)] + \log [p(D)]$

Por lo general, es difícil de calcular. Lo bueno es que no afecta el resultado. Es simplemente una constante de normalización. $p(D)$

Ahora, por ejemplo, si nuestro conjunto de hipótesis es un grupo de gaussianos con donde no sabemos , pero suponga saber (o al menos suponga que es una constante), y además, las hipótesis mismas se distribuyen como gaussianas con luego enchufar todo lo anterior se parece a: $p(D|H)$ $p(y|X,\theta)\sim N(\theta X,\sigma)$ $\theta$ $\sigma$ $p(H) = p(\theta) \sim N(0,\alpha^{-1} I)$

- \log [p (H | D)] = bunch of constants + \frac{1}{2} (y - θ X)^{2} + \frac{1}{2} α | | θ | |^{2} + c o n s t a n t

$-\log [p(H|D)] = \text{bunch of constants} + \frac{1}{2}(y-\theta X)^2 + \frac{1}{2}\alpha||\theta||^2 + {\rm constant}$

Ahora, si minimizamos esta expresión, encontramos la hipótesis con la mayor probabilidad. Las constantes no afectan la minimización. Esta es la expresión en tu pregunta.

El hecho de que usemos gaussianos no cambia el hecho de que el término de regularización es adicional. Debe ser aditivo (en términos logarítmicos o multiplicativo en probabilidades), no hay otra opción. Lo que cambiará si usamos otras distribuciones son los componentes de la adición. La función de costo / pérdida que ha proporcionado es óptima para un escenario específico de gaussianos.

— Cagdas Ozgenc
fuente

Hola Cagdas, gracias por la explicación. No entendí la transformación de la última ecuación en el RHS. ¿Puede señalar algún recurso para que yo comprenda esa parte más claramente

— Itachi

7

Ridge es una formulación muy conveniente. A diferencia de las respuestas probabilísticas, estas respuestas no dan ninguna interpretación de la estimación, sino que explican por qué la cresta es una formulación antigua y obvia.

En regresión lineal, las ecuaciones normales dan $\hat{\theta} = (X^TX)^{-1} X^T y$

Pero, la matriz veces no es invertible; Una manera de ajustar, es mediante la adición de un pequeño elemento de la diagonal: . $X^TX$ $X^TX + \alpha I$

Esto da la solución: ; entonces no resuelve el problema original sino el problema de la cresta. $\tilde{\theta} = (X^TX + \alpha I)^{-1} X^T y$ $\tilde{\theta}$

— wpof
fuente

3

Especifique las respuestas a las que se refiere. El orden se moverá a medida que se acumulen los votos, por lo que "arriba" es intrínsecamente ambiguo.

— gung - Restablece a Monica

1

Creo que hay una razón más intuitiva de por qué no podemos multiplicar por el término de regularización.

Llevemos nuestra función de penalización a la función de penalización regular multiplicada por un término de regularización como usted sugiere.

J (θ) = (\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}) α ‖ θ ‖_{2}^{2}

$J(θ)=(\frac{1}{2}(y−θX^T)(y−θX^T)^T)α‖θ‖^2_2$

Aquí creamos un mínimo global de la función de penalización donde . En este caso, nuestro modelo puede producir altos errores entre la predicción y los datos, pero no importa, si los pesos de los parámetros del modelo son todos cero, nuestra función de penalización es cero . $α‖θ‖^2_2=0$ $J(θ=0)=0$

Dado que, a menos que nuestro modelo sea completamente perfecto, el término nunca puede ser cero (la probabilidad de que exista un conjunto θ hacer que nuestro modelo sea 'perfecto' es insignificante para datos reales), entonces nuestro modelo siempre debe tender a entrenar hacia la solución θ = 0. $(\frac{1}{2}(y−θX^T)(y−θX^T)^T)$

Esto es lo que devolverá a menos que se quede atascado en un mínimo local en alguna parte.

— James Fulton
fuente