Motivación intuitiva para la actualización de BFGS

¡Estoy enseñando una clase de encuesta de análisis numérico y estoy buscando motivación para el método BFGS para estudiantes con experiencia / intuición limitada en optimización!

$\|J_k-J_{k-1}\|^2_{\textrm{Fro}}$ $J_k(\vec x_k-\vec x_{k-1})=f(\vec x_k)-f(\vec x_{k-1})$

¡Las derivaciones de las actualizaciones de BFGS parecen mucho más complicadas y turbias! En particular, me gustaría no asumir a priori que la actualización debe ser de rango 2 o tomar una forma particular. ¿Existe una breve motivación de aspecto variado para la actualización de BFGS Hessian como la de Broyden?

optimization iterative-method nonlinear-programming

— Justin Solomon
fuente

Si permites una actualización arbitraria, entonces puedes usar el Hessian completo en el método de Newton. Una gran ventaja computacional de una actualización de bajo rango es que le permite actualizar la factorización del Hessian aproximado muy rápidamente.

— Brian Borchers

La derivación del BFGS es más intuitiva cuando se consideran (estrictamente) los costos convexos funcionales:

Sin embargo, es necesaria cierta información de fondo : supongamos que se quiere minimizar una función convexa

f (x) \to min_{x \in R^{n}} .

$f(x) \to \min_{x\in \mathbb R^n}.$ Digamos que hay una solución aproximada

x_{k}

$x_k$ . Luego, se aproxima el mínimo de

f

$f$ por el mínimo de la expansión de Taylor truncada

f (x_{k} + p) \approx f (x_{k}) + \nabla f (x_{k})^{T} p + \frac{1}{2} p^{T} H (x_{k}) p . (*)

$f(x_k+p) \approx f(x_k) +\nabla f(x_k)^Tp + \frac{1}{2}p^T H(x_k)p. \quad(*)$ Es decir, uno busca

p

$p$ tal que

(*)

$(*)$ es mínimo y establece

x_{k + 1} := x_{k} + p

$x_{k+1} := x_k + p$ . Calcular el gradiente de

(*)

$(*)$ - "con respecto a

p

$p$ " - y ponerlo a cero da la relación

H (x_{k}) [x_{k + 1} - x_{k}] = \nabla f (x_{k + 1}) - \nabla f (x_{k}),

$H(x_k)[x_{k+1} - x_k] = \nabla f(x_{k+1}) - \nabla f(x_k),$ donde

H

$H$ es el 'jacobiano del gradiente' o la matriz de Hesse.

Dado que el cálculo y la inversión del hessiano son caros ...

... una respuesta corta

(véase la actualización de Broyden) podría ser que la actualización BFGS $H_{k+1}^{-1}$ minimiza

‖ H_{k}^{- 1} - H^{- 1} ‖_{W}

$\|H_k^{-1} - H^{-1}\|_W$ en una norma de Frobenius ponderada elegida de forma inteligente, sujeto a

$H[x_{k+1} - x_k] = \nabla f(x_{k+1}) - \nabla f(x_k)$ - esto es lo que uno está buscando - y
$H^T = H$ , porque el hessiano es simétrico.

Luego, la elección del peso en ~~como la inversa de~~ la arpillera promedio , cf. aquí para la declaración pero sin pruebas, da la fórmula de actualización BFGS (con ). $W$ $\|H\|_W := \|W^{1/2}HW^{1/2}\|_F$ $G:=\int_0^1 H(x_k + \tau p) d\tau$ $\alpha_k = 1$

Los puntos principales son:

Uno intenta aproximar la solución para los costos reales mediante la solución para una aproximación cuadrática
El cálculo de la arpillera, y su inverso, es costoso. Uno prefiere actualizaciones simples.
La actualización se elige óptima para el inverso en lugar del real de Hesse.
El hecho de que sea una actualización de rango 2 es una consecuencia de la elección particular de los pesos en la norma Frobenius.

Una respuesta más larga debe incluir cómo elegir los pesos, cómo hacer que esto funcione para problemas no convexos (donde aparece una condición de curvatura que requiere una escala de la dirección de búsqueda ), y cómo derivar la fórmula real para la actualización. Una referencia está aquí (en alemán). $p$

— ene
fuente

Muchas gracias, esto es genial (y más o menos lo que esperaba basado en la discusión en Nocedal & Wright). La única pregunta que tengo es: ¿por qué elegimos y la norma como lo hacemos? Entiendo que tiene que ver con unidades, pero hay muchas opciones potenciales de y normas que hacen esto.

W

$W$

W

$W$

— Justin Solomon

Si verdad. Bueno, no lo se. Una respuesta es que proporciona la fórmula de actualización simple de calcular y que funciona bien. Históricamente, este enfoque de la actualización, minimizando la diferencia en la actualización, fue el de Shanno. Fue un árbitro (Goldfarb) quien descubrió que una elección particular de los pesos lleva a la fórmula de Broyden y Fletcher. Ver esta tesis doctoral Desarrollo histórico del método secante BFGS ... para las intuiciones de los desarrolladores de BFGS. Sin embargo, los 3 enfoques son bastante abstractos.

— Jan

Interesante, gracias por la orientación! Mi redacción actual (con algunos errores matemáticos que necesitan ayuda) está aquí: graphics.stanford.edu/courses/cs205a-13-fall/assets/notes/… (si desea crédito por su ayuda, me complace proporcionarla - por favor envíeme un correo electrónico con la información de contacto adecuada)

— Justin Solomon

@jan ¿Por qué es tu ecuación y no ¿No es la condición secante dada por , donde . ¡Gracias!

H (x_{k}) [x_{k + 1} - x_{k}] = \nabla f (x_{k + 1}) - \nabla f (x_{k})

$H(x_k)[x_{k+1} - x_k] = \nabla f(x_{k+1}) - \nabla f(x_k)$

H (x_{k + 1}) [x_{k + 1} - x_{k}] = \nabla f (x_{k + 1}) - \nabla f (x_{k}) ?

$H(x_{k+1})[x_{k+1} - x_k] = \nabla f(x_{k+1}) - \nabla f(x_k)?$

H_{k + 1} s_{k} = y_{k}

$H_{k+1}s_k =y_k$

s_{k} = x_{k + 1} - x_{k}, y_{k} = \nabla f_{k + 1} - \nabla f_{k}

$s_k=x_{k+1}-x_k, y_k=\nabla f_{k+1}-\nabla f_k$

— Jeff Faraci