Entendiendo espacios continuos de estado / acción MDPs y aprendizaje de refuerzo

La mayoría de las introducciones al campo de los MDP y el aprendizaje por refuerzo se centran exclusivamente en dominios donde las variables de espacio y acción son enteros (y finitos). De esta manera, se nos presenta rápidamente la iteración del valor, el Q-Learning y similares.

Sin embargo, las aplicaciones más interesantes (por ejemplo, helicópteros voladores ) de RL y MDP involucran espacios de estado continuo y espacios de acción. Me gustaría ir más allá de las presentaciones básicas y centrarme en estos casos, pero no estoy seguro de cómo llegar allí.

¿Qué áreas necesito saber o estudiar para comprender estos casos en profundidad?

research reinforcement-learning control-problem

— CarrKnight
fuente

Hay una pequeña encuesta de estados continuos, acciones y tiempo en el aprendizaje de refuerzo en mi propuesta de tesis .

Con respecto a los libros, Reinforcement Learning: State-of-the-Art parece estar bastante actualizado de los extractos que he leído.

— rcpinto
fuente