El venerable algoritmo teórico del gráfico de la ruta más corta A * y las mejoras posteriores (por ejemplo, Hierarchical Annotated A *) es claramente la técnica de elección para encontrar rutas en el desarrollo del juego.
En cambio, me parece que RL es un paradigma más natural para mover un personaje por un espacio de juego.
Y, sin embargo, no conozco un solo desarrollador de juegos que haya implementado un motor de búsqueda de caminos basado en Reinforcement Learning. (No deduzco de esto que la aplicación de RL en la búsqueda de rutas es 0, solo que es muy pequeña en relación con A * y amigos).
Cualquiera sea la razón, no es porque estos desarrolladores no estén al tanto de RL, como lo demuestra el hecho de que RL se usa con frecuencia en otras partes del motor del juego.
Esta pregunta no es un pretexto para ofrecer una opinión sobre RL en la búsqueda de rutas; de hecho, supongo que la preferencia tácita por A * et al. sobre RL es correcto, pero esa preferencia no es obvia para mí y tengo mucha curiosidad acerca de la razón, especialmente de cualquiera que haya intentado usar RL para encontrar caminos.