El algoritmo de aprendizaje Q tabular está garantizado para encontrar la función óptima , , siempre que las siguientes condiciones (lascondiciones Robbins-Monro) con respecto a la tasa de aprendizaje se satisfacen
donde significa la tasa de aprendizaje utilizada al actualizar el valor asociado con el estado y la acción en el paso de tiempo , donde se supone que es verdadero, para todos los Estados y acciones .
Aparentemente, dado que , para que las dos condiciones sean verdaderas, todos los pares de estado-acción deben visitarse infinitamente a menudo: esto también se afirma en el libro Aprendizaje de refuerzo: una introducción , aparte del hecho de que esto debería ser ampliamente conocida y es la razón de ser del uso de la política -greedy (o políticas similares) durante el entrenamiento.
Una prueba completa que muestra que -learning encuentra la función óptima se puede encontrar en el artículo Convergence of Q-learning: A Simple Proof (por Francisco S. Melo). Utiliza conceptos como el mapeo de contracción para definir la Q óptima función (ver también ¿Cuál es el operador de Bellman en el aprendizaje por refuerzo? ), Que es un punto fijo de este operador de contracción. También usa un teorema (n. 2) con respecto al proceso aleatorio que converge a , dados algunos supuestos. (La prueba puede no ser fácil de seguir si no eres un matemático).
Si se usa una red neuronal para representar la función , haga las garantías de convergencia de -learning siguen vigentes? ¿Por qué (o no) converge Q-learning cuando se utiliza la aproximación de funciones? ¿Existe una prueba formal de tal no convergencia de -learning usando aproximación de funciones?
Estoy buscando diferentes tipos de respuestas, de aquellas que dan solo la intuición detrás de la no convergencia de -learning cuando se usa la aproximación de funciones a las que proporcionan una prueba formal (o un enlace a un documento con una prueba formal).