En el documento de 2015 de DeepMind sobre el aprendizaje de refuerzo profundo, afirma que "Los intentos anteriores de combinar RL con redes neuronales habían fracasado en gran medida debido al aprendizaje inestable". Luego, el documento enumera algunas causas de esto, en función de las correlaciones entre las observaciones.
¿Podría alguien explicar qué significa esto? ¿Es una forma de sobreajuste, donde la red neuronal aprende alguna estructura que está presente en el entrenamiento, pero que puede no estar presente en las pruebas? O significa algo más?
El documento se puede encontrar: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
Y la sección que estoy tratando de entender es:
Se sabe que el aprendizaje por refuerzo es inestable o incluso divergente cuando se utiliza un aproximador de función no lineal, como una red neuronal, para representar la función de valor de acción (también conocida como Q). Esta inestabilidad tiene varias causas: las correlaciones presentes en la secuencia de observaciones, el hecho de que pequeñas actualizaciones a Q pueden cambiar significativamente la política y, por lo tanto, cambiar la distribución de datos, y las correlaciones entre los valores de acción y los valores objetivo.
Abordamos estas inestabilidades con una variante novedosa de Q-learning, que utiliza dos ideas clave. Primero, utilizamos un mecanismo inspirado biológicamente denominado repetición de experiencia que aleatoriza los datos, eliminando así las correlaciones en la secuencia de observación y suavizando los cambios en la distribución de datos. En segundo lugar, utilizamos una actualización iterativa que ajusta los valores de acción (Q) hacia los valores objetivo que solo se actualizan periódicamente, reduciendo así las correlaciones con el objetivo.