Entendiendo espacios continuos de estado / acción MDPs y aprendizaje de refuerzo


8

La mayoría de las introducciones al campo de los MDP y el aprendizaje por refuerzo se centran exclusivamente en dominios donde las variables de espacio y acción son enteros (y finitos). De esta manera, se nos presenta rápidamente la iteración del valor, el Q-Learning y similares.

Sin embargo, las aplicaciones más interesantes (por ejemplo, helicópteros voladores ) de RL y MDP involucran espacios de estado continuo y espacios de acción. Me gustaría ir más allá de las presentaciones básicas y centrarme en estos casos, pero no estoy seguro de cómo llegar allí.

¿Qué áreas necesito saber o estudiar para comprender estos casos en profundidad?

Respuestas:


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.