Estoy considerando programar una línea que siga al robot usando algoritmos de aprendizaje de refuerzo. La pregunta que estoy considerando es cómo puedo hacer que el algoritmo aprenda a navegar por cualquier ruta arbitraria.
Después de seguir el Libro de Sutton y Barto para el aprendizaje de refuerzo, resolví un problema de ejercicio que involucraba una pista de carreras donde el agente del automóvil aprendió a no salir de la pista y regular su velocidad. Sin embargo, ese problema de ejercicio hizo que el agente aprendiera a navegar la pista en la que se entrenó.
¿Está en el ámbito del aprendizaje de refuerzo hacer que un robot navegue por caminos arbitrarios? ¿El agente tiene que tener absolutamente un mapa del circuito o ruta de la carrera? ¿Qué parámetros podría usar para mi espacio de estado?