He estado leyendo DeepMind Atari de Google de papel y yo estoy tratando de entender el concepto de "experiencia de repetición". La repetición de la experiencia aparece en muchos otros documentos de aprendizaje de refuerzo (en particular, el documento AlphaGo), por lo que quiero entender cómo funciona. A continuación se presentan algunos extractos.
Primero, utilizamos un mecanismo inspirado biológicamente denominado repetición de experiencia que aleatoriza los datos, eliminando así las correlaciones en la secuencia de observación y suavizando los cambios en la distribución de datos.
El documento luego elabora de la siguiente manera:
Si bien existen otros métodos estables para entrenar redes neuronales en el entorno de aprendizaje de refuerzo, como la iteración Q ajustada neural, estos métodos implican el entrenamiento repetido de redes de novo cientos de iteraciones. En consecuencia, estos métodos, a diferencia de nuestro algoritmo, son demasiado ineficientes para ser utilizados con éxito con grandes redes neuronales. Parametrizamos una función de valor aproximado utilizando la red neuronal convolucional profunda que se muestra en la figura 1, en la que son los parámetros (es decir, pesos) de la red Q en la iteración . Para realizar la repetición de la experiencia, almacenamos las experiencias del agente en cada paso de tiempo ten un conjunto de datos . Durante el aprendizaje, aplicamos actualizaciones de Q-learning, en muestras (o mini lotes) de experiencia , extraídas uniformemente al azar del conjunto de muestras almacenadas. La actualización de Q-learning en la iteración utiliza la siguiente función de pérdida:
¿Qué es la repetición de la experiencia y cuáles son sus beneficios, en términos simples?