La mayoría de las introducciones al campo de los MDP y el aprendizaje por refuerzo se centran exclusivamente en dominios donde las variables de espacio y acción son enteros (y finitos). De esta manera, se nos presenta rápidamente la iteración del valor, el Q-Learning y similares.
Sin embargo, las aplicaciones más interesantes (por ejemplo, helicópteros voladores ) de RL y MDP involucran espacios de estado continuo y espacios de acción. Me gustaría ir más allá de las presentaciones básicas y centrarme en estos casos, pero no estoy seguro de cómo llegar allí.
¿Qué áreas necesito saber o estudiar para comprender estos casos en profundidad?