En el artículo de DeepMind sobre Deep Q-Learning para videojuegos Atari ( aquí ), utilizan un método de épsilon codicioso para la exploración durante el entrenamiento. Esto significa que cuando se selecciona una acción en el entrenamiento, se elige como la acción con el valor q más alto o como una acción aleatoria. La elección entre estos dos es aleatoria y se basa en el valor de épsilon, y épsilon se recoce durante el entrenamiento de manera que inicialmente se toman muchas acciones aleatorias (exploración), pero a medida que avanza el entrenamiento, se toman muchas acciones con los valores q máximos. (explotación).
Luego, durante las pruebas, también utilizan este método de épsilon codicioso, pero con épsilon a un valor muy bajo, de modo que existe un fuerte sesgo hacia la explotación sobre la exploración, favoreciendo la elección de la acción con el valor q más alto sobre una acción aleatoria. Sin embargo, a veces todavía se eligen acciones aleatorias (5% del tiempo).
Mi pregunta es: ¿Por qué es necesaria alguna exploración en este momento, dado que ya se ha realizado la capacitación? Si el sistema ha aprendido la política óptima, ¿por qué no se puede elegir siempre la acción como la que tiene el valor q más alto? ¿No debería hacerse la exploración solo en el entrenamiento, y luego, una vez que se aprende la política óptima, el agente puede elegir repetidamente la acción óptima?
¡Gracias!