1
¿Por qué DQN requiere dos redes diferentes?
Estaba pasando por esta implementación de DQN y veo que en la línea 124 y 125 se han inicializado dos redes Q diferentes. Según tengo entendido, creo que una red predice la acción apropiada y la segunda red predice los valores de Q objetivo para encontrar el error de Bellman. …