Estoy tratando de entender el aprendizaje por refuerzo y los procesos de decisión de Markov (MDP) en el caso de que se utilice una red neuronal como aproximador de funciones.
Estoy teniendo dificultades con la relación entre el MDP donde se explora el entorno de manera probabilística, cómo esto se remonta a los parámetros de aprendizaje y cómo se encuentran las soluciones / políticas finales.
¿Estoy en lo cierto al suponer que, en el caso del aprendizaje Q, la red neuronal actúa esencialmente como un aproximador de funciones para el valor q en sí mismo, tantos pasos en el futuro? ¿Cómo se correlaciona esto con los parámetros de actualización mediante retropropagación u otros métodos?
Además, una vez que la red ha aprendido cómo predecir la recompensa futura, ¿cómo encaja esto con el sistema en términos de tomar decisiones? Supongo que el sistema final no haría transiciones de estado probabilísticamente.
Gracias