¿Por qué la tasa de descuento en el algoritmo REINFORCE aparece dos veces?

11

Estaba leyendo el libro Aprendizaje de refuerzo: una introducción de Richard S. Sutton y Andrew G. Barto (borrador completo, 5 de noviembre de 2017).

En la página 271, se presenta el pseudocódigo para el método episódico de gradiente de políticas de Montecarlo. Mirando este pseudocódigo, no puedo entender por qué parece que la tasa de descuento aparece 2 veces, una en el estado de actualización y una segunda vez dentro de la devolución. [Ver la figura a continuación]

Parece que el retorno de los pasos después del paso 1 es solo un truncamiento del regreso del primer paso. Además, si mira solo una página arriba en el libro, encontrará una ecuación con solo 1 tasa de descuento (la que está dentro de la devolución).

¿Por qué entonces el pseudocódigo parece ser diferente? Supongo que estoy malinterpretando algo:

\begin{matrix} (13.6) & θ_{t + 1} \dot{=} θ_{t} + α G_{t} \frac{\nabla_{θ} π (A_{t} | S_{t}, θ_{t})}{π (A_{t} | S_{t}, θ_{t})} . \end{matrix}

${\mathbf{\theta}}_{t+1} ~\dot{=}~\mathbf{\theta}_t + \alpha G_t \frac{{\nabla}_{\mathbf{\theta}} \pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}{\pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}. \tag{13.6}$

— Diego Orellana
fuente

5

El factor de descuento aparece dos veces, y esto es correcto.

Esto se debe a que la función que está intentando maximizar en REINFORCE para un problema episódico (tomando el gradiente) es el retorno esperado de un estado de inicio (distribución de) dado:

J (θ) = E_{π (θ)} [G_{t} | S_{t} = s_{0}, t = 0]

$J(\theta) = \mathbb{E}_{\pi(\theta)}[G_t|S_t = s_0, t=0]$

$G_1$ $G_2$ $\gamma = 0$

$J(\theta)$ $\gamma^t$

— Neil Slater
fuente

5

$\gamma^t$

Solo quisiera aclarar adicionalmente que no parece estar malinterpretando nada, la ecuación (13.6) en el libro es realmente diferente del pseudocódigo .

Ahora, no tengo la edición del libro que mencionaste aquí, pero tengo un borrador posterior del 22 de marzo de 2018, y el texto sobre este tema en particular parece ser similar. En esta edición:

$\gamma = 1$
Esa prueba finalmente conduce a la misma ecuación (13.6) en la página 329.
$\gamma = 1$
$\gamma < 1$

— Dennis Soemers
fuente

2

Gracias. La explicación de su tercer punto faltaba en el borrador de 2017.

— Diego Orellana

2

@DiegoOrellana Ya no puedo encontrar un enlace al borrador del 22 de marzo, parece que hay un borrador aún más tarde (no puedo encontrar una fecha mencionada) aquí . Esta versión en realidad tiene una cubierta elegante, por lo que incluso podría ser una versión final en lugar de un borrador. Si el enlace se rompe en el futuro, sospecho que un nuevo enlace estará disponible aquí .

— Dennis Soemers

3

Es un tema sutil.

Si observa el algoritmo A3C en el documento original (p.4 y el apéndice S3 para el pseudocódigo), su algoritmo de actor crítico (el mismo algoritmo tiene problemas episódicos y continuos) está desactivado por un factor de gamma en relación con el actor. pseudocódigo crítico para problemas episódicos en el libro de Sutton y Barto (p.332 de la edición de enero de 2019 de http://incompleteideas.net/book/the-book.html ). El libro de Sutton y Barto tiene el "primer" gamma adicional como está etiquetado en su imagen. Entonces, ¿el libro o el papel A3C está mal? Realmente no.

La clave está en la p. 199 del libro de Sutton y Barto:

Si hay un descuento (gamma <1), debe tratarse como una forma de terminación, que puede hacerse simplemente incluyendo un factor en el segundo término de (9.2).

El problema sutil es que hay dos interpretaciones del factor de descuento gamma:

Un factor multiplicativo que pone menos peso en recompensas futuras distantes.
Una probabilidad, 1 - gamma, de que una trayectoria simulada termina espuriosamente, en cualquier momento. Esta interpretación solo tiene sentido para casos episódicos y no para casos continuos.

Implementaciones literales:

Simplemente multiplique las recompensas futuras y las cantidades relacionadas (V o Q) en el futuro por gamma.
Simule algunas trayectorias y termine aleatoriamente (1 - gamma) de ellas en cada paso de tiempo. Las trayectorias terminadas no otorgan recompensas inmediatas o futuras.

$G \nabla\ln\pi(a|s)$

$\gamma^2 G \nabla\ln\pi(a|s)$ $0.81 G \nabla\ln\pi(a|s)$

$G \nabla\ln\pi(a|s)$ $G$

Puede elegir la interpretación de gamma, pero debe tener en cuenta las consecuencias del algoritmo. Personalmente prefiero seguir con la interpretación 1 solo porque es más simple. Entonces uso el algoritmo en el documento A3C, no en el libro de Sutton y Barto.

Su pregunta fue sobre el algoritmo REINFORCE, pero he estado discutiendo sobre el actor crítico. Tiene exactamente el mismo problema relacionado con las dos interpretaciones gamma y la gamma adicional en REINFORCE.

— toto2
fuente