Estoy tratando de entender el famoso artículo "Playing Atari with Deep Reinforcement Learning" ( pdf ). No estoy claro acerca de la diferencia entre una época y un episodio . En el algoritmo , el bucle externo está sobre episodios , mientras que en la figura 2 el eje x está etiquetado como epoch . En el contexto del aprendizaje por refuerzo, no tengo claro qué significa una época. ¿Es una época un ciclo externo alrededor del ciclo del episodio?