¿Por qué el algoritmo de iteración de política converge a la función óptima de política y valor?

10

Estaba leyendo las notas de la conferencia de Andrew Ng sobre el aprendizaje por refuerzo, y estaba tratando de entender por qué la iteración de políticas convergía con la función de valor óptimo y la política óptima . $V^*$ $\pi^*$

La iteración de la política de recuperación es:

$\text{Initialize $\pi$ randomly} \\ \text{Repeat}\{\\ \quad Let \ V := V^{\pi} \text{ \\for the current policy, solve bellman's eqn's and set that to the current V}\\ \quad Let \ \pi(s) := argmax_{a \in A} \sum_{s'}P_{sa}(s') V(s')\\ \}$

¿Por qué es que un algoritmo codicioso conduce a una política óptima y una función de valor óptimo? (Sé que los algoritmos codiciosos no siempre garantizan eso, o pueden quedar atrapados en los óptimos locales, por lo que solo quería ver una prueba de su optimización del algoritmo).

Además, me parece que la iteración de políticas es algo análogo al agrupamiento o al descenso de gradiente. Para la agrupación, porque con la configuración actual de los parámetros, optimizamos. Similar al descenso de gradiente porque solo elige algún valor que parece aumentar alguna función. Estos dos métodos no siempre convergen a máximos óptimos, y estaba tratando de entender cómo este algoritmo era diferente de los anteriores que mencioné.

Estos son mis pensamientos hasta ahora:

Digamos que comenzamos con alguna política , luego, después del primer paso, para esa política fija tenemos que: $\pi_1$

$V^{\pi_1}(s) = R(s) + \gamma \sum_{s'}P_{s\pi_1(s)}(s')V^{\pi_1}(s')$

$V^{(1)} := V^{\pi_1}(s)$

Donde V ^ {(1)} es la función de valor para la primera iteración. Luego, después del segundo paso, elegimos una nueva política para aumentar el valor de . Ahora, con la nueva política , si hacemos el segundo paso del algoritmo, la siguiente desigualdad es cierta: $\pi_2$ $V^{\pi_1}(s)$ $\pi_2$

$R(s) + \gamma \sum_{s'}P_{s\pi_1(s)}(s')V^{\pi_1}(s') \leq R(s) + \gamma \sum_{s'}P_{s\pi_2(s)}(s')V^{\pi_1}(s')$

Debido a que elegimos en el segundo paso para aumentar la función de valor en el paso anterior (es decir, para mejorar . Hasta ahora, está claro que elegir solo puede aumentar V ^ {(1)}, porque así es como elegimos . Sin embargo, mi confusión viene en el paso de repetición porque una vez que repetimos y volvemos al paso 1, en realidad cambiamos las cosas por completo porque volvemos a calcular para la nueva política . Lo que da: $\pi_2$ $V^{(1)}$ $\pi_2$ $\pi_2$ $V^{2}$ $\pi_2$

$V^{\pi_2}(s) = R(s) + \gamma \sum_{s'}P_{s\pi_2(s)}(s')V^{\pi_2}(s')$

pero NO es:

$V^{\pi_1}(s) = R(s) + \gamma \sum_{s'}P_{s\pi_2(s)}(s')V^{\pi_1}(s')$

Lo que parece ser un problema porque se eligió para mejorar , y no esta nueva . Básicamente, el problema es que garantiza mejorar haciendo en lugar de cuando la función de valor es . Pero en el paso de repetición cambiamos a , pero no veo cómo eso garantiza que la función de valor mejore monotónicamente en cada repetición porque se calculó para mejorar la función de valor cuando las funciones de valor permanecen en $\pi_2$ $V^{(1)}$ $V^{\pi_2}$ $pi_2$ $R(s) + \gamma \sum_{s'}P_{s\pi_1(s)}(s')V^{\pi_1}(s')$ $\pi_2$ $pi_1$ $V^{\pi_1}$ $V^{\pi_1}$ $V^{\pi_2}$ $\pi_2$ $V^{\pi_1}$ , pero el paso 1 cambia a (lo cual es malo porque I solo mejoró la función de valor anterior que teníamos). $V^{\pi_1}$ $V^{\pi_2}$ $\pi_2$

reinforcement-learning policy-iteration

— Pinocho
fuente

1

Solo una nota: codicioso no implica que un algoritmo no encuentre una solución óptima en general.

— Regenschein

1

La iteración de valor es un algoritmo de programación dinámica, en lugar de codicioso. Los dos comparten algunas similitudes, pero hay diferencias. Eche un vistazo a stackoverflow.com/questions/13713572/… .

— francoisr

@francoisr, nadie me dijo eso. Tal vez por eso fue tan (innecesariamente) misterioso para mí. Conozco a DP bastante bien. Gracias sin embargo! :)

— Pinocho

4

Creo que la parte que falta es que está garantizado por la misma razón por la que podemos pedir . Esa es esencialmente la definición de que una política es mejor que otra: que su función de valor es mayor o igual en todos los estados. Lo ha garantizado eligiendo las acciones de maximización: ningún valor de estado puede ser peor que antes, y si solo una opción de acción ha cambiado para elegir una mejor acción de maximización, entonces ya sabe (pero puede que no haya calculado) que el para ese estado será mayor de lo que fue para . $V^{\pi_2} \ge V^{\pi_1}$ $\pi_2 \ge \pi_1$ $V^{\pi_2}(s)$ $V^{\pi_1}(s)$

Cuando elegimos maximizar los resultados para generar , no sabemos cuáles los nuevos para cualquier estado, pero sí sabemos que . $\pi_2$ $V^{\pi_2}(s)$ $\forall s: V^{\pi_2}(s) \ge V^{\pi_1}(s)$

Por lo tanto, al volver al ciclo y calcular para la nueva política, se garantiza que tendrá los mismos valores o más altos que antes, y cuando se trata de actualizar la política nuevamente, . $V^{\pi_2}$ $\pi_3 \ge \pi_2 \ge \pi_1$

— Neil Slater
fuente

4

Primero veamos por qué funciona el algoritmo de iteración de políticas. Tiene dos pasos.

Paso de evaluación de políticas:

$v_n = r_{d_n} + \gamma P_{d_n}v_n$ es la forma vectorial general del sistema de ecuaciones lineales.

Aquí, los términos son recompensas inmediatas y las filas correspondientes de la matriz de transición. $r_{d_n}, P_{d_n}$

Estos términos dependen de la política $\Pi_n$

Resolviendo el sistema de ecuaciones anterior, podemos encontrar los valores de $v_n$

Paso de mejora de la política:

Supongamos que pudimos encontrar una nueva política tal que $\Pi_{n+1}$

\begin{aligned} r_{d_{n} + 1} + γ P_{d_{n} + 1} v_{n} & \geq r_{d_{n}} + γ P_{d_{n}} v_{n} \\ ⟹ r_{d_{n} + 1} & \geq [I - γ P_{d_{n} + 1}] v_{n} say this is eqn. 1 \end{aligned}

$\begin{align} r_{d_n+1} + \gamma P_{d_n+1}v_n & \ge r_{d_n} + \gamma P_{d_n}v_n \\ \implies r_{d_n+1} & \ge [I - \gamma P_{d_n+1}]v_n \quad \text{say this is eqn. 1}\\ \end{align}$

Ahora, según la nueva política , podemos encontrar , digamos que esta es la ecuación 2. $\Pi_{n+1}$ $v_{n+1} = r_{d_{n+1}} + \gamma P_{d_{n+1}}v_{n+1}$

Vamos a mostrar que ; $v_{n+1} \ge v_n$

es decir, esencialmente para todos los estados, la política recientemente elegida ofrece un mejor valor en comparación con la política anterior $\Pi_{n+1}$ $\Pi_{n}$

Prueba:

De la ecuación 2, tenemos,

$[I - \gamma P_{d_{n+1}}]v_{n+1} = r_{d_n+1}$

De, , tenemos $1 \&2$

$v_{n+1} \ge v_{n}$

Esencialmente, los valores aumentan monotónicamente con cada iteración.

Esto es importante para entender por qué la Interación de políticas no se atascará en un máximo local.

Una política no es más que un espacio de acción estatal.

En cada paso de iteración de política, intentamos encontrar al menos una acción de estado que sea diferente entre y y ver si . Solo si se cumple la condición, calcularemos la solución al nuevo sistema de ecuaciones lineales. $\Pi_{n+1}$ $\Pi_{n}$ $\quad r_{d_n+1} + \gamma P_{d_n+1}v_n \ge r_{d_n} + \gamma P_{d_n}v_n$

Suponga que y son el óptimo global y local respectivamente. $\Pi^*$ $\Pi^\#$

Implica, $v_* \ge v_\#$

Suponga que el algoritmo está atascado en el óptimo local.

Si este es el caso, el paso de mejora de la política no se detendrá en el espacio de acción de estado óptimo local , ya que existe al menos una acción de estado en que es diferente de y produce un valor más alto de comparación con $\Pi^\#$ $\Pi^*$ $\Pi^\#$ $v_{*}$ $v_{\#}$

o, en otras palabras,

$[I-\gamma P_{d_*}]v_* \ge [I-\gamma P_{d_*}]v_{\#}$

$\implies r_{d_*} \ge [I-\gamma P_{d_*}]v_{\#}$

$\implies r_{d_*} + \gamma P_{d_*}v_{\#} \ge v_{\#}$

$\implies r_{d_*} + \gamma P_{d_*}v_{\#} \ge r_{d_\#} + \gamma P_{d_\#}v_\#$

Por lo tanto, la iteración de la política no se detiene en un óptimo local

— Honeybadger
fuente