¿Es bien sabido que algunos problemas de optimización son equivalentes al paso del tiempo?


19

Dado un estado deseado y0 y un parámetro de regularización βR , considere el problema de encontrar un estado y un control u para minimizar un funcional

12yy02+β2u2
Ay=u.
y,y0,uRnARn×n

Formando el Lagrangiano, buscando puntos estacionarios y eliminando el control obtenemos las condiciones de primer orden Premultiplicando por en la primera ecuación y en la segunda, podemos escribir las ecuaciones normales Podemos interpretar esto como pasos simples de aproximaciones de Euler hacia atrás a las ecuaciones diferenciales u

ATλ=y0yAy=1βλ
AAT
(I+βAAT)λ=βAy0(I+βATA)y=y0
λb=AATλ+Ay0,λ(0)=0yb=ATAy,y(0)=y0
con pseudotimestep β .

Mi pregunta: ¿Es bien conocida esta conexión? ¿Se discute en los tratamientos estándar de paso de tiempo u optimización? (Para mí, parece proporcionar algún tipo de conexión intuitiva entre ellos).

La idea parece lo suficientemente simple como para tener que ser bien conocida, pero ni buscar en la literatura ni hablar con la gente me ha dado una buena fuente para discutir esto. Lo más cercano que he encontrado es un artículo de O. Scherzer y J. Weichert (J. Math Imaging Vision 12 (2000) pp. 43-63) que establece la conexión en la primera oración del resumen (!) Pero no proporcione referencias o explore la conexión en cualquier profundidad.

Idealmente, estoy buscando una referencia que no solo establezca la conexión, sino que también explore algunas consecuencias (por ejemplo, uno podría imaginarse el preacondicionamiento de un problema de optimización con un paso de Euler barato).


1
Hablando en términos generales (y como probablemente ya sepa), los enfoques paso a paso del pseudo-tiempo son métodos bien conocidos para resolver ecuaciones algebraicas (como el sistema KKT que describe), al considerar el problema como encontrar el estado estable de un conjunto de EDO donde la variable de tiempo es realmente un pseudo-tiempo. Sin embargo, no conozco ninguna conexión específica que relacione una instancia específica de las condiciones KKT con un solo paso hacia atrás de Euler.
Geoff Oxberry

Por otro lado, solo necesita resolver uno de los dos ODE, ya que puede usar una de las condiciones necesarias de primer orden para calcular, por ejemplo, desde . λyλ
Christian Clason

Respuestas:


17

Como mencionó Jed Brown, la conexión entre el descenso del gradiente en la optimización no lineal y el paso del tiempo de los sistemas dinámicos se redescubre con cierta frecuencia (es comprensible, ya que es una conexión muy satisfactoria para la mente matemática, ya que vincula dos campos aparentemente diferentes). Sin embargo, rara vez resulta ser una conexión útil , especialmente en el contexto que describe.

En los problemas inversos, la gente está interesada en la solución de la ecuación de operador (mal planteado) con no en el rango de . (Su problema de control óptimo puede verse como una instancia del mismo con y .) Varias estrategias de regularización (como Tikhonov o Landweber) pueden interpretarse como un solo pseudo-tiempo paso de cierta clase. La idea es usar la interpretación del parámetro de regularización como una longitud de paso para obtener algunas reglas de elección (adaptativas, a posteriori) para el parámetro, un problema fundamental en problemas inversos, y posiblemente hacer múltiples pasos de seudo-tiempo para acercarse a la verdadera solución no regularizada (de manera similar ay δ F F = A - 1 y δ = y 0F(u)=yδyδFF=A1yδ=y0continuación numérica ). Esto a veces se llama regularización continua , y generalmente se discute en el contexto de los métodos de conjunto de niveles; véase, por ejemplo, el Capítulo 6.1 de Kaltenbacher, Scherzer, Neubauer: Métodos de regularización iterativa para problemas no lineales mal planteados (de Gruyter, 2008).

Un segundo contexto en el que esta idea surge repetidamente es la optimización no lineal: si observa un paso de descenso de gradiente para , puede interpretar esto como un paso hacia adelante de Euler para el sistema dinámico Como señaló Jed Brown, esto a primera vista produce solo la observación no muy sorprendente de que este método converge, siempre que los pasos de pseudo-tiempo sean lo suficientemente pequeños. La parte interesante viene cuando observa el sistema dinámico y se pregunta qué propiedades tiene la solución continua del denominado flujo de gradienteminxf(x)˙ x ( t ) = - f ( x ( t ) ) ,

xk+1=xkγkf(xk),
γ k x ( t )
x˙(t)=f(x(t)),x(0)=x0.
γkx(t)tiene (o debería tener), independiente del descenso del gradiente, y si eso podría no conducir a métodos de paso de tiempo más apropiados (y, por lo tanto, de optimización) que el Euler estándar. Algunos ejemplos fuera de mi cabeza:
  1. ¿Existe un espacio de función natural en el que vive el flujo de gradiente? Si es así, su paso de gradiente debe tomarse desde el mismo espacio (es decir, la discretización debe ser conforme). Esto lleva, por ejemplo, a calcular las representaciones de Riesz del gradiente con respecto a diferentes productos internos (a veces llamados gradientes de Sobolev ) y, en la práctica, a iteraciones preacondicionadas que convergen mucho más rápido.

  2. Quizás debería pertenecer no a un espacio vectorial, sino a una variedad (p. Ej., Matrices simétricas positivas definidas), o el flujo de gradiente debería conservar una cierta norma de . En este caso, podría intentar aplicar esquemas de paso de tiempo que preserven la estructura (por ejemplo, que impliquen un retroceso con respecto a un grupo de Lie apropiado o un integrador geométrico).xxx

  3. Si no es diferenciable pero convexo, el paso de Euler hacia adelante corresponde a un método de descenso de subgradiente que puede ser muy lento debido a restricciones de tamaño de paso. Por otro lado, un paso de Euler implícito corresponde a un método de punto proximal , para el que no se aplican tales restricciones (y que, por lo tanto, se han vuelto muy populares, por ejemplo, en el procesamiento de imágenes).f

  4. En una línea similar, tales métodos pueden acelerarse significativamente mediante pasos de extrapolación. Una forma de motivarlos es observando que los métodos estándar de primer orden tienen que hacer muchos pasos pequeños cerca de los minimizadores, porque las direcciones de gradiente "oscilan" (piense en la ilustración estándar de por qué los gradientes conjugados superan el descenso más pronunciado). Para remediar esto, uno puede "amortiguar" la iteración al no resolver un sistema dinámico de primer orden, sino un sistema amortiguado de segundo orden : para elegido adecuadamente . Con la discretización adecuada, esto lleva a una iteración (conocida como método de bola pesada de Polyak ) de la forma a 1 , a 2 x k + 1 = x k - γ kf ( x k ) + α k ( x k - x k - 1 ) γ k ,

    a1x¨(t)+a2x˙(t)=f(x(t))
    a1,a2
    xk+1=xkγkf(xk)+αk(xkxk1)
    (con dependiendo de ) Existen ideas similares para los métodos de punto proximal, véase, por ejemplo, el artículo http://arxiv.org/pdf/1403.3522.pdf de Dirk Lorenz y Thomas Pock.γk,αka1,a2

(Debo agregar que, según mi conocimiento, en la mayoría de estos casos, la interpretación como sistema dinámico no era estrictamente necesaria para la derivación o la prueba de convergencia del algoritmo; se podría argumentar que ideas como "implícito versus explícito" o derivadas de Lie en realidad son más fundamentales que los sistemas dinámicos o los métodos de descenso de gradiente. Sin embargo, nunca está de más tener otro punto de vista desde el cual mirar un problema).


EDITAR: Acabo de encontrar un excelente ejemplo del segundo contexto, donde la interpretación ODE se utiliza para deducir las propiedades del método de extragrado de Nesterov y sugerir mejoras: http://arxiv.org/pdf/1503.01243.pdf (tenga en cuenta que esto también es un ejemplo del punto de Jed Brown, en el sentido de que los autores redescubren esencialmente el punto 4 anterior sin aparentemente estar al tanto del algoritmo de Polyak).

EDIT 2: Y como una indicación de cuán lejos puede llevar esto, consulte la página 5 de http://arxiv.org/pdf/1509.03616v1.pdf .


Estoy aceptando esta respuesta porque el segundo párrafo responde más directamente a la pregunta que estaba tratando de hacer, pero también me gustó la respuesta de Jed Brown.
Andrew T. Barker

13

Si bien no he visto la formulación exacta que ha escrito aquí, sigo viendo conversaciones en las que las personas "redescubren" una conexión para integrar algún sistema transitorio, y proceden a escribir un algoritmo que es equivalente algebraicamente a una forma o otro de un descenso de gradiente existente o método similar a Newton, y no puedo citar a nadie más. Creo que no es muy útil porque la conclusión es básicamente que "siempre que se tomen medidas lo suficientemente pequeñas, el método finalmente converge a un mínimo local". Bueno, 2014 marca el 45 aniversario del artículo de Philip Wolfe que muestra cómo hacer esto de una manera basada en principios. También existe una buena teoría para obtener la convergencia q-cuadrática o q-superlineal a partir de la continuación pseudotransitoria y métodos relacionados como Levenberg-Marquardt.

Si desea una instancia de este redescubrimiento utilizando una formulación similar a Newton para resolver ecuaciones algebraicas (es decir, continuación pseudotransitoria clásica) de un matemático con más de 600 documentos (por lo que tal vez él probará cosas que le parecen interesantes), mire el " Método de sistemas dinámicos "por AG Ramm [1].

Si la intuición obtenida al considerar un sistema transitorio condujera a algoritmos prácticos que fueran más rápidos o más confiables, creo que veríamos artículos altamente citados sobre ese tema. Creo que no es ningún misterio que Nocedal y Wright tengan más de 13000 citas, mientras que el libro de Ramm tiene alrededor de 80 (en su mayoría auto-citas).

[1] Puedo aconsejarle que no informe al profesor Ramm que su DSM es equivalente algebraicamente a algo que ha estado en innumerables paquetes de ingeniería durante décadas o puede que le griten fuera de la sala. #gradstudentmemories


3
¡Podría ser más interesante verte decirle eso ahora, Jed!
Bill Barth

0

Si los métodos ODE pueden contribuir a la optimización, ¿hay un problema de ejemplo realmente simple para mostrar esto?
Un hombre de paja: ¿hay un solucionador de ODE que haga un trabajo razonable en o como Christian Clason sugiere para decir la función de Rosenbrock, en 2d o 10d? Si eso es tonto, ¿alguien tiene un mejor hombre de paja? (Tenga en cuenta que es "razonable", no "competitivo con los optimizadores de última generación". Me imagino que uno necesita disminuir el tamaño de los pasos / tolerancia, y tal vez un solucionador rígido).
x˙=f(x)
fx¨=βx˙αf(x)  
f

En la práctica, los pasos "demasiado grandes" son mucho más problemáticos que los "demasiado pequeños": las oscilaciones son desordenadas.
Pensé ingenuamente que la teoría del control podría ayudar. Recetas Numéricas p. 915 describe el
control de tamaño de paso adaptativo de PI para ODE , pero no sé si esto se usa en la práctica.


Parece que está publicando una nueva pregunta como respuesta ... Las preguntas relacionadas de forma tangencial deben publicarse en preguntas separadas o comentarios a las respuestas dadas.
Paul

@Paul, ¿tiene sentido esto? Si es así, ¿podría sugerir un título para una nueva pregunta?
denis

Estoy confundido ... Podría estar equivocado, pero parece que su respuesta no es realmente la pregunta del OP. ¿Cuál es exactamente el mensaje que está tratando de transmitir y cómo se relaciona con la pregunta original?
Paul

@ Paul, lo siento, no estoy claro. La pregunta, según tengo entendido, pide una relación entre un problema de optimización en particular y los solucionadores de ODE de paso de tiempo también conocidos. Christian Clason señala la relación directa entre el descenso de gradiente y un solucionador de EDO particular (Euler hacia adelante). Comento, ¿qué es una función de prueba simple f () que muestra un solucionador ODE moviéndose hacia un mínimo de f ()?
denis
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.