En el documento que presenta DQN " Playing Atari with Deep Reinforcement Learning ", mencionó:
Tenga en cuenta que cuando se aprende por repetición de experiencia, es necesario aprender fuera de la política (porque nuestros parámetros actuales son diferentes a los utilizados para generar la muestra), lo que motiva la elección de Q-learning.
No entendí bien lo que significa. ¿Qué sucede si usamos SARSA y recordamos la acción a'
para la acción que debemos realizar s'
en nuestra memoria, y luego tomamos muestras de él y actualizamos Q como lo hicimos en DQN? Y, ¿pueden los métodos de actor crítico (A3C, para específicos) usar la repetición de la experiencia? Si no, ¿por qué?
(s, a, r, s')
y aprovecho esta experiencia para volver a reproducirla; Supongamos ahora que mi política actual dice que se debe tomara'
ens'
, a continuación, marca queQ(s, a)
debe serr + Q(s', a')
y hacer descenso de gradiente. Creo que estoy haciendo experiencia reproduciendo en la política. ¿Hay algún problema con el proceso?