Cómo ajustar pesos en valores Q con aproximación de función lineal

En el aprendizaje por refuerzo, la aproximación de función lineal a menudo se usa cuando hay grandes espacios de estado. (Cuando las tablas de búsqueda se vuelven inviables).

La forma del valor con aproximación de función lineal viene dada por $Q-$

Q (s, una) = w_{1} F_{1} (s, una) + w_{2} F_{2} (s, una) + \dots,

$Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots,$

donde son los pesos y son las características. $w_i$ $f_i$

Las características están predefinidas por el usuario. Mi pregunta es, ¿cómo se asignan los pesos?

He leído / descargado algunas diapositivas de conferencias sobre learning con aproximación de funciones. La mayoría de ellos tienen diapositivas sobre regresión lineal que siguen. Como son solo diapositivas, tienden a estar incompletas. Me pregunto cuál es la conexión / relación entre los dos temas. $Q-$

machine-learning feature-selection reinforcement-learning

— cgo
fuente

La aproximación de funciones es básicamente un problema de regresión (en el sentido general, es decir, opuesto a la clasificación donde la clase es discreta), es decir, uno intenta aprender un mapeo de funciones desde la entrada (en su caso $f(s,a)$ ) a un valor real salida $Q(s,a)$ . Dado que no tenemos una tabla completa de todos los valores de entrada / salida, sino que aprendemos y estimamos $Q(s,a)$ al mismo tiempo, los parámetros (aquí: los pesos $w$ ) no pueden calcularse directamente a partir de los datos. Un enfoque común aquí es usar el descenso de gradiente .

Aquí está el algoritmo general para aprender $Q(s,a)$ con aproximación de función de valor

Init parámetro-vector $w=(w_1,w_2,....,w_n)$ al azar (por ejemplo, en [0,1])
Para cada episodio:
1. $s\leftarrow$ estado inicial del episodio
2. $a\leftarrow$ acción dada por la política $\pi$ (recomendado: $\epsilon$ -greedy)
3. Tome la acción $a$ , observe la recompensa $r$ y el siguiente estado $s'$
4. $w\leftarrow w+ \alpha(r+\gamma * max_{a'}Q(s',a') - Q(s,a)) \vec\nabla_wQ(s,a)$
5. $s\leftarrow s'$
Repita 2-5 hasta que $s$ sea terminal

dónde ...

$\alpha\in[0,1]$ es la tasa de aprendizaje
$\gamma\in[0,1]$ es la tasa de descuento
$max_{a'}Q(s',a')$ es la acción $a'$ en estado $s'$ maximizando $Q(s',a)$
$\vec\nabla_wQ(s,a)$ es el gradiente de $Q(s,a)$ en $w$ . En su caso lineal, el gradiente es simplemente un vector $(f_1(s,a),...,f_n(s,a))$

Los parámetros / actualización de pesos (4to paso) se pueden leer de esta manera:

$(r+\gamma * max_a'Q(s',a')) - (Q(s,a))$ es el error entre la predicción $Q(s,a)$ y el valor "real" para $Q(s,a)$ , que es la recompensa $r$ obtenidoahora PLUSde lo esperado, recompensa descontado siguiendo la política codiciososdespués $\gamma * max_a'Q(s',a')$
Por lo tanto, el parámetro / vector de peso se desplaza en la dirección más pronunciada (dada por el gradiente $\vec\nabla_wQ(s,a)$ ) por la cantidad del error medido, ajustado por $\alpha$ .

Fuente principal:

Capítulo 8 Aproximación de valor del libro (recomendado en general) Aprendizaje de refuerzo: una introducción de Sutton y Barto (primera edición). El algoritmo general se ha modificado, ya que comúnmente se hace para calcular $Q(s,a)$ lugar de $V(s)$ . También eliminé los rastros de elegibilidad $e$ para centrarme en el descenso del gradiente, por lo tanto, utilizo solo copias de seguridad de un paso

Más referencias

$Q(s,a)$
Una breve encuesta de aproximación de la función de valor paramétrico por Geist y Pietquin. Parece prometedor, pero aún no lo he leído.

— steffen
fuente

Enlace roto para Barto y Sutton! Ahora aquí -> incompleteideas.net/book/the-book.html :) y como ebook incompleteideas.net/book/ebook pero no sé dónde encontrar un archivo mobi

— grisaitis

¿No es el gradiente de Q (s, a) en relación con el vector de columna wa donde cada elemento es fi (s, a), en lugar de ser la suma de todos los fi como dijiste? El objetivo es que cada peso se cambie de acuerdo con el valor de la característica a la que se está multiplicando.

— Miguel Saraiva

@MiguelSaraiva Sí, lo arreglé. Muchas gracias.

— steffen