¿El juego DQN Atari de DeepMind estaba aprendiendo simultáneamente?

9

DeepMind afirma que su red Q profunda (DQN) pudo adaptar continuamente su comportamiento mientras aprendía a jugar 49 juegos de Atari.

Después de aprender todos los juegos con la misma red neuronal, ¿fue el agente capaz de jugarlos todos a niveles 'sobrehumanos' simultáneamente (siempre que se presentara aleatoriamente uno de los juegos) o podría ser bueno solo en un juego a la vez porque cambiaba? requiere un nuevo aprendizaje?

neural-networks deep-learning deepmind

— Dion
fuente

"Después de aprender todos los juegos con la misma red neuronal". ¿Significa esto la misma arquitectura NN O la misma arquitectura y el mismo conjunto de pesos?

— Ankur

@Ankur en realidad no estoy seguro, tengo entendido (limitado) que usaron la misma arquitectura y no restablecieron los pesos entre los juegos.

— Dion

2

El cambio requirió un reaprendizaje.

Además, tenga en cuenta que :

Utilizamos la misma arquitectura de red, algoritmos de aprendizaje y configuraciones de hiperparámetros en los siete juegos, lo que demuestra que nuestro enfoque es lo suficientemente robusto como para trabajar en una variedad de juegos sin incorporar información específica del juego. Si bien evaluamos a nuestros agentes en los juegos reales y no modificados, solo realizamos un cambio en la estructura de recompensas de los juegos durante el entrenamiento.

y

la red ha superado a todos los algoritmos RL anteriores en seis de los siete juegos que hemos intentado y ha superado a un jugador humano experto en tres de ellos.

— Franck Dernoncourt
fuente

1

El cambio requiere volver a aprender, la red no tenía un solo conjunto de pesos que le permitiera jugar bien a todos los juegos. Esto se debe al catastrófico problema de olvido.

Sin embargo, se ha realizado un trabajo reciente para superar este problema:

"Superar el olvido catastrófico en redes neuronales", 2016

Documento: https://arxiv.org/pdf/1612.00796v1.pdf

— Nada
fuente