Intuición detrás del método de dirección alterna de multiplicadores

He estado leyendo muchos documentos sobre ADMM últimamente, y también intenté resolver varios problemas al usarlo, en todos los cuales fue muy efectivo. A diferencia de otros métodos de optimización, no puedo tener una buena intuición de cómo y por qué este método es tan efectivo (por supuesto, he visto análisis de convergencia en algunos casos, pero nada que me haya dado mucha información). ¿Hay alguna intuición detrás de ADMM? ¿Cómo se les ocurrió esta idea a los primeros científicos en usarlo? Alguna intuición geométrica sería lo mejor, pero cualquier idea que alguien tenga ayudará.

optimization admm

— olamundo
fuente

¿Puedes explicar qué es ADMM?

— Bill Barth

@BillBarth - Claro :) Método de dirección alterna de multiplicadores (ver, por ejemplo, stanford.edu/~boyd/admm.html )

— olamundo

¿Al menos puede decir de qué se trata el documento original que le resulta tan poco claro?

— Kirill el

@Kirill Just a nit: el papel de Boyd no es el original de ADMM. Es una buena referencia, pero el algoritmo se remonta a Douglas y Rachford (1956) y se desarrolló y analizó más a fondo desde la década de 1970 hasta la de 1990. Se ha visto un resurgimiento en los últimos años en gran parte debido a los rumores en torno regularización.

ℓ^{1}

$\ell^1$

— Jed Brown el

ADMM ha recibido mucha atención porque es muy efectivo para resolver problemas en la regularización , pero no es un método que sea generalmente útil para todos los problemas de optimización. Una mejor pregunta sería por qué ADMM es tan eficaz en el contexto. El trabajo de Osher y Yin sobre los métodos de Bregman divididos (básicamente equivalentes a ADMM) ayuda a explicar esto. Vea la página en caam.rice.edu/~optimization/L1/bregman

L_{1}

$L_{1}$

— Brian Borchers el

Si no recuerdo mal, el ADMM a menudo se establece como un algoritmo para resolver para dos convexos , inferior-semicontinuos funcionales y y lineales, operadores delimitadas y .

min_{x, y} F (x) + G (y), s.t A x + B y = c

$\min_{x,y}\ F(x) + G(y),\quad\text{s.t}\quad Ax+By = c$

F

$F$

G

$G$

A

$A$

B

$B$

Encuentro el siguiente caso especial de , y ilustrativo. En este caso, la restricción dice , es decir, podemos sustituir para obtener el problema Ahora resolver esto puede ser difícil, mientras que resolver problemas de la forma puede ser fácil. (Puede crear ejemplos para esto usted mismo, uno popular es y ). En ADMM comienzas desde la "forma " y construyes el "lagragiano aumentado" $A=I$ $B=-I$ $c=0$ $x - y = 0$

min_{x} F (x) + G (x) .

$\min_x F(x) + G(x).$

min_{x} ρ F (x) + \frac{1}{2} ‖ x - z ‖^{2}

$\min_x \rho F(x) + \tfrac12\|x-z\|^2$

F (x) = λ ‖ x ‖^{1}

$F(x) = \lambda\|x\|^1$

G (x) = \frac{1}{2} ‖ A x - b ‖^{2}

$G(x) = \tfrac12\|Ax-b\|^2$

min_{x, y} F (x) + G (y), s.t x - y = 0

$\min_{x,y}\ F(x) + G(y),\quad\text{s.t}\quad x-y=0$

L_{ρ} (x, y, z) = F (x) + G (y) + z^{T} (x - y) + \frac{ρ}{2} ‖ x - y ‖^{2}

$L_\rho(x,y,z) = F(x) + G(y) + z^T(x-y) + \tfrac\rho2\|x-y\|^2$ con el multiplicador de Lagrange . Ahora minimiza alternativamente el Lagragio augementado en las diferentes direcciones e , es decir, itera y actualiza el multiplicador de acuerdo con Esto debería explicar el nombre del método de direcciones alternas de multiplicadores .

z

$z$

x

$x$

y

$y$

x^{k + 1} = {a r g m i n}_{x} L_{ρ} (x, y^{k}, z^{k})

$x^{k+1} = \mathrm{argmin}_x\ L_\rho(x,y^k,z^k)$

y^{k + 1} = {a r g m i n}_{y} L_{ρ} (x^{k + 1}, y, z)

$y^{k+1} = \mathrm{argmin}_y\ L_\rho(x^{k+1},y,z)$

z^{k + 1} = z^{k} + ρ (x^{k + 1} - y^{k + 1}) .

$z^{k+1} = z^k + \rho(x^{k+1} - y^{k+1}).$

El análisis de estos problemas de minimización de e más cerca, se observa que para cada actualización sólo se necesita para resolver un problema de la "forma más simple", por ejemplo, para la actualización (descuidando los términos que no dependen de ). $x$ $y$ $x$

x^{k + 1} = {a r g m i n}_{x} F (x) + \frac{ρ}{2} ‖ x - y^{k} + ρ z^{k} ‖^{2}

$x^{k+1} = \mathrm{argmin}_x\ F(x) + \tfrac\rho2\|x - y^k + \rho z^k\|^2$

x

$x$

ADMM para el problema se deriva de manera similar, pero los problemas intermedios para las actualizaciones siguen siendo una poco difícil pero puede ser comparativamente simple en comparación con el original. Especialmente en el caso de y (o equivalente , y la restricción ) las actualizaciones son más o menos fáciles de implementar.

min_{x, y} F (x) + G (y), s.t A x + B y = c

$\min_{x,y}\ F(x) + G(y),\quad\text{s.t}\quad Ax+By = c$

F (x) = λ ‖ x ‖_{1}

$F(x) = \lambda\|x\|_1$

G (x) = \frac{1}{2} ‖ A x - b ‖^{2}

$G(x) = \tfrac12\|Ax-b\|^2$

F (x) = λ ‖ x ‖_{1}

$F(x) = \lambda\|x\|_1$

G (y) = \frac{1}{2} ‖ y ‖^{2}

$G(y) = \tfrac12\|y\|^2$

A x - y = b

$Ax - y = b$

— Puñal
fuente

¡Agradable! También es útil mostrar lo que sucede para 3 bloques (hay casos en los que funcionará, por ejemplo, para matrices relacionadas con la decoración).

— Royi