Resolviendo la ecuación de Hamilton-Jacobi-Bellman; necesario y suficiente para la optimización?

Considere la siguiente ecuación diferencial donde es el estado la variable de control. La solución viene dada por donde es el estado inicial dado.

\begin{aligned} \dot{x} (t) = f (x (t), u (t)) \end{aligned}

$\begin{align} \dot x(t)=f(x(t),u(t)) \end{align}$

x

$x$

u

$u$

\begin{aligned} x (t) = x_{0} + \int_{0}^{t} f (x (s), u (s)) d s . \end{aligned}

$\begin{align} x(t)=x_0 + \int^t_0f(x(s),u(s))ds. \end{align}$

x_{0} := x (0)

$x_0:=x(0)$

Ahora considere el siguiente programa donde denota preferencia de tiempo, es el valor y una función objetivo. Una aplicación económica clásica es el modelo de crecimiento óptimo de Ramsey-Cass-Koopmans. La ecuación de Hamilton-Jacobi-Bellman viene dada por

\begin{aligned} V (x_{0}) := max_{u} \int_{0}^{\infty} e^{- ρ t} F (x (t), u (t)) d t \\ s . t . & \dot{x} (t) = f (x (t), u (t)) \\ x (0) = x_{0} \end{aligned}

$\begin{align} &V(x_0) := \max_u \int^\infty_0 e^{-\rho t}F(x(t),u(t))dt\\ s.t.~&\dot x(t)=f(x(t),u(t))\\ &x(0) = x_0 \end{align}$

ρ > 0

$\rho > 0$

V (\cdot)

$V(\cdot)$

F (\cdot)

$F(\cdot)$

\begin{aligned} ρ V (x) = max_{u} [F (x, u) + V^{'} (x) f (x, u)], \forall t \in [0, \infty) . \end{aligned}

$\begin{align} \rho V(x)=\max_u [F(x,u) + V'(x)f(x,u)],\quad \forall t\in[0,\infty). \end{align}$

Decir que he resuelto el HJB de $V$ . El control óptimo viene dado por

\begin{aligned} u^{*} = \arg max_{u} [F (x, u) + V^{'} (x) f (x, u)] . \end{aligned}

$\begin{align} u^*=\arg\max_u [F(x,u) + V'(x)f(x,u)]. \end{align}$ Obtendré trayectorias óptimas para el estado y controlaré

{(x^{*} (t), u^{*} (t)) : t \in [0, \infty)}

$\{(x^*(t),u^*(t)):t\in[0,\infty)\}$ .

El artículo wiki dice

... pero cuando se resuelve en todo el espacio de estados, la ecuación HJB es una condición necesaria y suficiente para un óptimo.

En Bertsekas (2005), Programación dinámica y control óptimo , Vol. 1, 3ª ed., En la Proposición 3.2.1, afirma que resolver para $V$ es la función óptima de costo de operación y que la asociada $u^*$ es óptima. Sin embargo, lo declara explícitamente como un teorema de suficiencia.

En realidad, solo quiero asegurarme de que, si he resuelto el HJB y recuperado el estado asociado y las trayectorias de control, no tengo que preocuparme por ninguna condición de optimización adicional.

Solución

Intento

Creo que pude derivar las condiciones necesarias del principio máximo mediante la ecuación HJB misma.

Defina el hamiltoniano

\begin{aligned} H (x, u, V^{'} (x)) := F (x, u) + V^{'} (x) f (x, u) \end{aligned}

$\begin{align} H(x,u,V'(x)) := F(x,u) + V'(x)f(x,u) \end{align}$

entonces tenemos

\begin{aligned} ρ V (x) = max_{u} H (x, u, V^{'} (x)) \end{aligned}

$\begin{align} \rho V(x)=\max_u H(x,u,V'(x)) \end{align}$

que es

\begin{aligned} ρ V (x) = H (x, u^{*}, V^{'} (x)) . \end{aligned}

$\begin{align} \rho V(x)= H(x,u^*,V'(x)). \end{align}$

Defina una función arbitraria con . Ahora arregle $q:[0,\infty)\to\mathbb{R}$ $q(0)=\lim_{t\to\infty} q(t)=0$

\begin{aligned} x = x^{*} + ε q \end{aligned}

$\begin{align} x = x^*+\varepsilon q \end{align}$

donde es un parámetro. Inserte el término en el hamiltoniano maximizado que da $\varepsilon\in\mathbb{R}$

\begin{aligned} ρ V (x^{*} + ε q) = H (x^{*} + ε q, u^{*}, V^{'} (x^{*} + ε q)) . \end{aligned}

$\begin{align} \rho V(x^*+\varepsilon q)= H(x^*+\varepsilon q,u^*,V'(x^*+\varepsilon q)). \end{align}$

En tenemos la solución óptima. Por lo tanto, se diferencia sobre para obtener una condición de primer orden $\varepsilon = 0$ $\varepsilon$

\begin{aligned} ρ V^{'} q = H_{x} q + H_{V^{'}} V^{″} q . \end{aligned}

$\begin{align} \rho V'q = H_x q + H_{V'}V''q. \end{align}$

Ahora defina la variable adjunta con

\begin{aligned} λ = V^{'} (x) . \end{aligned}

$\begin{align} \lambda = V'(x). \end{align}$

Diferenciar con el tiempo

\begin{aligned} \dot{λ} = V^{″} \dot{x} . \end{aligned}

$\begin{align} \dot \lambda = V''\dot x. \end{align}$

y tenga en cuenta que

\begin{aligned} H_{V^{'}} = f (x, u) = \dot{x} . \end{aligned}

$\begin{align} H_{V'} = f(x,u) = \dot x. \end{align}$

Conecte todo al foc que da

\begin{aligned} ρ λ = H_{x} + \dot{λ} . \end{aligned}

$\begin{align} \rho \lambda = H_x + \dot \lambda. \end{align}$

Eso es todo. Por lo tanto, resolver el HJB es realmente necesario y suficiente (omitido aquí) para la optimización. Alguien debería agregarlo a la wiki. Podría ahorrar tiempo para las personas que piensan en tales problemas (no creo que sea mucho).

Sin embargo, falta la condición de transversalidad .

\begin{aligned} lim_{t \to \infty} e^{- ρ t} λ (t) = 0 \end{aligned}

$\begin{align} \lim_{t\to\infty} e^{-\rho t}\lambda(t) = 0 \end{align}$

II intento

Defina el resultado funcional

\begin{aligned} J (u) := \int_{0}^{\infty} e^{- ρ t} F (x, u) d t \end{aligned}

$\begin{align} J(u):=\int^\infty_0 e^{-\rho t}F(x,u)dt \end{align}$

Tenga en cuenta que por definición de . Agregue el término neutral a la función de pago

\begin{aligned} \int_{0}^{\infty} e^{- ρ t} λ [f (x, u) - \dot{x}] d t = 0 \end{aligned}

$\begin{align} \int^\infty_0{e^{-\rho t}\lambda[f(x,u) - \dot x]dt} = 0 \end{align}$

\dot{x} = f (x, u)

$\dot x = f(x,u)$

\begin{aligned} J (u) & = \int_{0}^{\infty} e^{- ρ t} [F (x, u) + λ f (x, u)] d t - \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t \\ = \int_{0}^{\infty} e^{- ρ t} H (x, u, λ) - \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t \end{aligned}

$\begin{align} J(u)&=\int^\infty_0 e^{-\rho t}[F(x,u)+\lambda f(x,u)]dt - \int^\infty_0{e^{-\rho t}\lambda\dot xdt}\\ &=\int^\infty_0 e^{-\rho t}H(x,u,\lambda) - \int^\infty_0{e^{-\rho t}\lambda\dot xdt} \end{align}$

Integración por partes del término correcto y los rendimientos rhs

\begin{aligned} \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t = [e^{- ρ t} λ (t) x (t)]_{0}^{\infty} - \int_{0}^{\infty} e^{- ρ t} x (\dot{λ} - ρ λ) d t \end{aligned}

$\begin{align} \int^\infty_0{e^{-\rho t}\lambda\dot xdt} = [e^{-\rho t}\lambda(t)x(t)]^\infty_0 - \int^\infty_0{e^{-\rho t}x(\dot \lambda-\rho\lambda)dt} \end{align}$

Vuelva a sustituir ese término

\begin{aligned} J (u) = \int_{0}^{\infty} e^{- ρ t} [H (x, u, λ) + x (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) x (t) + λ (0) x (0) \end{aligned}

$\begin{align} J(u)=\int^\infty_0 e^{-\rho t}[H(x,u,\lambda) + x(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)x(t) + \lambda(0)x(0) \end{align}$

Definir

\begin{aligned} x & = x^{*} + ε q \\ u & = u^{*} + ε p \end{aligned}

$\begin{align} x &= x^*+\varepsilon q\\ u &= u^*+\varepsilon p \end{align}$

que da

\begin{aligned} J (ε) = \int_{0}^{\infty} e^{- ρ t} [H (x^{*} + ε q, u^{*} + ε p, λ) + (x^{*} + ε q) (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) [x^{*} (t) + ε q (t)] + λ (0) x (0) \end{aligned}

$\begin{align} J(\varepsilon)=\int^\infty_0 e^{-\rho t}[H(x^*+\varepsilon q,u^*+\varepsilon p,\lambda) + (x^*+\varepsilon q)(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)[x^*(t)+\varepsilon q(t)] + \lambda(0)x(0) \end{align}$

FOC para el máximo $J_\varepsilon = 0$

\begin{aligned} J_{ε} = \int_{0}^{\infty} e^{- ρ t} [H_{x} q + H_{u} p + q (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) q (t) = 0 \end{aligned}

$\begin{align} J_\varepsilon=\int^\infty_0 e^{-\rho t}[H_x q + H_u p + q(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)q(t) = 0 \end{align}$

Dado que y no están restringidos, debemos tener $q$ $p$

\begin{aligned} H_{u} & = 0 \\ H_{x} & = ρ λ - \dot{λ} \\ lim_{t \to \infty} e^{- ρ t} λ (t) & = 0 \end{aligned}

$\begin{align} H_u &= 0\\ H_x &= \rho\lambda - \dot \lambda\\ \lim_{t\to\infty}e^{-\rho t}\lambda(t) &= 0 \end{align}$

mathematical-economics reference-request dynamic-programming

— despistado
fuente

¿Ya ha identificado las condiciones necesarias y suficientes?

— Jamzy

¿En qué contexto económico surge esto?

— Stan Shunpike

Modelo de Ramsey, por ejemplo cer.ethz.ch/resec/people/tsteger/Ramsey_Model.pdf

— despistado

Creo que este hilo es más adecuado para math.stackexchange.com ya que no está realmente vinculado a econ. Un mod puede transferirlo.

— despistado

No estoy seguro de lo que se pregunta aquí: si por Bertsekas, resolver HJB es suficiente , entonces no tiene que "preocuparse por las condiciones de optimización adicionales". El "suficiente" contra "necesario y suficiente" surgiría en caso de que HJB no se resolviera, en cuyo caso uno diría "esto no significa que no hay solución". Por cierto, sus Intentos I y II son contenido valioso aquí: el primero muestra un enlace entre HJB y Optimal Control, el segundo muestra cómo se pueden derivar los FOC de Control Óptimo.

— Alecos Papadopoulos

(Esto quizás debería considerarse un comentario).

Si ha resuelto la ecuación HJB, es suficiente para obtener la solución óptima. Por lo tanto, no "tiene que preocuparse por ninguna otra condición de optimización", que creo que parece responder a su pregunta.

Parece que le preocupa el componente "necesario" del teorema. El lado de la necesidad del enunciado es el siguiente: si hay una solución óptima, debe existir una solución para la ecuación HJB.

No he trabajado con este problema en particular, pero la respuesta en general es que no esperamos tener una función diferenciable V. Por lo tanto, no tenemos una solución a la ecuación como se afirma. En cambio, tenemos que mirar derivados generalizados y convertir la ecuación HJB en una desigualdad. En cuyo caso, puede obtener una "solución de viscosidad". Si nos extendemos para usar derivados generalizados, puede ser posible demostrar que siempre existe una solución de este tipo. Echando un vistazo a sus pruebas, no ayudarán en las condiciones de necesidad, ya que está asumiendo la diferenciabilidad.

— Brian Romanchuk
fuente