Como mencionó Jed Brown, la conexión entre el descenso del gradiente en la optimización no lineal y el paso del tiempo de los sistemas dinámicos se redescubre con cierta frecuencia (es comprensible, ya que es una conexión muy satisfactoria para la mente matemática, ya que vincula dos campos aparentemente diferentes). Sin embargo, rara vez resulta ser una conexión útil , especialmente en el contexto que describe.
En los problemas inversos, la gente está interesada en la solución de la ecuación de operador (mal planteado) con no en el rango de . (Su problema de control óptimo puede verse como una instancia del mismo con y .) Varias estrategias de regularización (como Tikhonov o Landweber) pueden interpretarse como un solo pseudo-tiempo paso de cierta clase. La idea es usar la interpretación del parámetro de regularización como una longitud de paso para obtener algunas reglas de elección (adaptativas, a posteriori) para el parámetro, un problema fundamental en problemas inversos, y posiblemente hacer múltiples pasos de seudo-tiempo para acercarse a la verdadera solución no regularizada (de manera similar ay δ F F = A - 1 y δ = y 0F(u)=yδyδFF=A−1yδ=y0continuación numérica ). Esto a veces se llama regularización continua , y generalmente se discute en el contexto de los métodos de conjunto de niveles; véase, por ejemplo, el Capítulo 6.1 de Kaltenbacher, Scherzer, Neubauer: Métodos de regularización iterativa para problemas no lineales mal planteados (de Gruyter, 2008).
Un segundo contexto en el que esta idea surge repetidamente es la optimización no lineal: si observa un paso de descenso de gradiente para ,
puede interpretar esto como un paso hacia adelante de Euler para el sistema dinámico
Como señaló Jed Brown, esto a primera vista produce solo la observación no muy sorprendente de que este método converge, siempre que los pasos de pseudo-tiempo sean lo suficientemente pequeños. La parte interesante viene cuando observa el sistema dinámico y se pregunta qué propiedades tiene la solución continua del denominado flujo de gradienteminxf(x)˙ x ( t ) = - ∇ f ( x ( t ) ) ,
xk+1=xk−γk∇f(xk),
γ k x ( t )x˙(t)=−∇f(x(t)),x(0)=x0.
γkx(t)tiene (o debería tener), independiente del descenso del gradiente, y si eso podría no conducir a métodos de paso de tiempo más apropiados (y, por lo tanto, de optimización) que el Euler estándar. Algunos ejemplos fuera de mi cabeza:
¿Existe un espacio de función natural en el que vive el flujo de gradiente? Si es así, su paso de gradiente debe tomarse desde el mismo espacio (es decir, la discretización debe ser conforme). Esto lleva, por ejemplo, a calcular las representaciones de Riesz del gradiente con respecto a diferentes productos internos (a veces llamados gradientes de Sobolev ) y, en la práctica, a iteraciones preacondicionadas que convergen mucho más rápido.
Quizás debería pertenecer no a un espacio vectorial, sino a una variedad (p. Ej., Matrices simétricas positivas definidas), o el flujo de gradiente debería conservar una cierta norma de . En este caso, podría intentar aplicar esquemas de paso de tiempo que preserven la estructura (por ejemplo, que impliquen un retroceso con respecto a un grupo de Lie apropiado o un integrador geométrico).xxx
Si no es diferenciable pero convexo, el paso de Euler hacia adelante corresponde a un método de descenso de subgradiente que puede ser muy lento debido a restricciones de tamaño de paso. Por otro lado, un paso de Euler implícito corresponde a un método de punto proximal , para el que no se aplican tales restricciones (y que, por lo tanto, se han vuelto muy populares, por ejemplo, en el procesamiento de imágenes).f
En una línea similar, tales métodos pueden acelerarse significativamente mediante pasos de extrapolación. Una forma de motivarlos es observando que los métodos estándar de primer orden tienen que hacer muchos pasos pequeños cerca de los minimizadores, porque las direcciones de gradiente "oscilan" (piense en la ilustración estándar de por qué los gradientes conjugados superan el descenso más pronunciado). Para remediar esto, uno puede "amortiguar" la iteración al no resolver un sistema dinámico de primer orden, sino un sistema amortiguado de segundo orden :
para elegido adecuadamente . Con la discretización adecuada, esto lleva a una iteración (conocida como método de bola pesada de Polyak ) de la forma
a 1 , a 2 x k + 1 = x k - γ k ∇ f ( x k ) + α k ( x k - x k - 1 ) γ k ,
a1x¨(t)+a2x˙(t)=−∇f(x(t))
a1,a2xk+1=xk−γk∇f(xk)+αk(xk−xk−1)
(con dependiendo de ) Existen ideas similares para los métodos de punto proximal, véase, por ejemplo, el artículo http://arxiv.org/pdf/1403.3522.pdf de Dirk Lorenz y Thomas Pock.γk,αka1,a2
(Debo agregar que, según mi conocimiento, en la mayoría de estos casos, la interpretación como sistema dinámico no era estrictamente necesaria para la derivación o la prueba de convergencia del algoritmo; se podría argumentar que ideas como "implícito versus explícito" o derivadas de Lie en realidad son más fundamentales que los sistemas dinámicos o los métodos de descenso de gradiente. Sin embargo, nunca está de más tener otro punto de vista desde el cual mirar un problema).
EDITAR: Acabo de encontrar un excelente ejemplo del segundo contexto, donde la interpretación ODE se utiliza para deducir las propiedades del método de extragrado de Nesterov y sugerir mejoras:
http://arxiv.org/pdf/1503.01243.pdf
(tenga en cuenta que esto también es un ejemplo del punto de Jed Brown, en el sentido de que los autores redescubren esencialmente el punto 4 anterior sin aparentemente estar al tanto del algoritmo de Polyak).
EDIT 2: Y como una indicación de cuán lejos puede llevar esto, consulte la página 5 de http://arxiv.org/pdf/1509.03616v1.pdf .