¿Por qué el aprendizaje de refuerzo profundo es inestable?


13

En el documento de 2015 de DeepMind sobre el aprendizaje de refuerzo profundo, afirma que "Los intentos anteriores de combinar RL con redes neuronales habían fracasado en gran medida debido al aprendizaje inestable". Luego, el documento enumera algunas causas de esto, en función de las correlaciones entre las observaciones.

¿Podría alguien explicar qué significa esto? ¿Es una forma de sobreajuste, donde la red neuronal aprende alguna estructura que está presente en el entrenamiento, pero que puede no estar presente en las pruebas? O significa algo más?


El documento se puede encontrar: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

Y la sección que estoy tratando de entender es:

Se sabe que el aprendizaje por refuerzo es inestable o incluso divergente cuando se utiliza un aproximador de función no lineal, como una red neuronal, para representar la función de valor de acción (también conocida como Q). Esta inestabilidad tiene varias causas: las correlaciones presentes en la secuencia de observaciones, el hecho de que pequeñas actualizaciones a Q pueden cambiar significativamente la política y, por lo tanto, cambiar la distribución de datos, y las correlaciones entre los valores de acción y los valores objetivo.

Abordamos estas inestabilidades con una variante novedosa de Q-learning, que utiliza dos ideas clave. Primero, utilizamos un mecanismo inspirado biológicamente denominado repetición de experiencia que aleatoriza los datos, eliminando así las correlaciones en la secuencia de observación y suavizando los cambios en la distribución de datos. En segundo lugar, utilizamos una actualización iterativa que ajusta los valores de acción (Q) hacia los valores objetivo que solo se actualizan periódicamente, reduciendo así las correlaciones con el objetivo.


Para asegurarse de que está entrenando a su agente en datos no correlacionados, no debe actualizar la memoria del agente en cada paso, arregle un paso de almacenamiento para hacer una descorrelación en los datos.
narjes karmani

Respuestas:


11

El principal problema es que, como en muchos otros campos, DNN puede ser difícil de entrenar. Aquí, un problema es la correlación de los datos de entrada: si piensas en un videojuego (en realidad los usan para probar sus algoritmos), puedes imaginar que las capturas de pantalla tomadas un paso tras otro están altamente correlacionadas: el juego evoluciona "continuamente". Eso, para los NN, puede ser un problema: hacer muchas iteraciones de descenso de gradiente en entradas similares y correlacionadas puede conducir a sobreajustarlas y / o caer en un mínimo local. Es por eso que usan la repetición de la experiencia: almacenan una serie de "instantáneas" del juego, luego las barajan y luego las siguen algunos pasos para entrenar. De esta manera, los datos ya no están correlacionados. Luego, notan cómo durante el entrenamiento los valores Q (predichos por el NN) pueden cambiar la política en curso,


Por datos "mezclados", ¿quiere decir experiencias aleatorias y fuera de secuencia muestreadas en un mini lote? ¿Cómo corresponde eso a la "recompensa futura con descuento", que parece implicar experiencias en la secuencia?
isobretatel
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.