¿Cuál es la diferencia entre episodio y época en el aprendizaje profundo de Q?

Estoy tratando de entender el famoso artículo "Playing Atari with Deep Reinforcement Learning" ( pdf ). No estoy claro acerca de la diferencia entre una época y un episodio . En el algoritmo , el bucle externo está sobre episodios , mientras que en la figura el eje x está etiquetado como epoch . En el contexto del aprendizaje por refuerzo, no tengo claro qué significa una época. ¿Es una época un ciclo externo alrededor del ciclo del episodio? $1$ $2$

— ANUNCIO
fuente

Entonces ... ¿cuántos episodios hacen una época?

— Lewen

un episodio = uno una secuencia de estados, acciones y recompensas, que termina con el estado terminal. Por ejemplo, jugar un juego completo puede considerarse como un episodio, llegando al estado terminal cuando un jugador pierde / gana / empata. En algún momento, uno puede preferir definir un episodio como varios juegos ( ejemplo : "cada episodio es una docena de juegos, porque los juegos alcanzan un puntaje de 21 para cada jugador").
una época = un paso hacia adelante y un paso hacia atrás de todos los ejemplos de entrenamiento, en la terminología de la red neuronal.

En el documento que menciona, parecen ser más flexibles con respecto al significado de época, ya que solo definen una época como una cierta cantidad de actualizaciones de peso. Por lo tanto, puede ver una época como un bucle externo alrededor del bucle del episodio, como mencionó en la pregunta.

— Franck Dernoncourt
fuente