Tienes razón, la función te da el valor de un estado y te da el valor de una acción en un estado (siguiendo una política dada ). Encontré la explicación más clara de Q-learning y cómo funciona en el libro de Tom Mitchell "Machine Learning" (1997), cap. 13, que es descargable. se define como la suma de una serie infinita, pero aquí no es importante. Lo que importa es que la función se define comoVQπVQ
Q(s,a)=r(s,a)+γV∗(δ(s,a))
donde V * es el mejor valor de un estado si pudieras seguir una política óptima que no No lo se. Sin embargo, tiene una buena caracterización en términos de
computación se realiza reemplazando en la primera ecuación para dar
Q
V∗(s)=maxa′Q(s,a′)
QV∗Q(s,a)=r(s,a)+γmaxa′Q(δ(s,a),a′)
Esto puede parecer una recursión extraña al principio porque expresa el valor Q de una acción en el estado actual en términos del mejor valor Q de un estado sucesor , pero tiene sentido cuando observa cómo lo utiliza el proceso de copia de seguridad: la exploración el proceso se detiene cuando alcanza un estado objetivo y recoge la recompensa, que se convierte en el valor Q de esa transición final. Ahora, en un episodio de entrenamiento posterior, cuando el proceso de exploración alcanza ese estado predecesor, el proceso de respaldo utiliza la igualdad anterior para actualizar el valor Q actual del estado predecesor. La próxima vez esse visita al predecesor el valor Q de ese estado se actualiza, y así sucesivamente (el libro de Mitchell describe una forma más eficiente de hacerlo almacenando todos los cálculos y repitiéndolos más adelante). Siempre que se visite cada estado infinitamente, este proceso eventualmente calcula la Q óptima
A veces verá una tasa de aprendizaje aplicada para controlar cuánto Q realmente se actualiza:
Aviso ahora que la actualización del valor de Q no depende del valor Q actual. El libro de Mitchell también explica por qué es eso y por qué necesita : es para MDP estocásticos. Sin , cada vez que se intentaba un estado, un par de acciones habría una recompensa diferente, por lo que la función Q ^ rebotaría por todo el lugar y no convergería. está ahí para que, como el nuevo conocimiento solo se acepte en parte.αQ(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a))
ααααse establece alto para que la corriente (en su mayoría valores aleatorios) de Q sea menos influyente disminuye a medida que avanza el entrenamiento, de modo que las nuevas actualizaciones tienen cada vez menos influencia, y ahora Q learning convergeα