¿La política óptima es siempre estocástica (es decir, un mapa de estados a una distribución de probabilidad sobre acciones) si el entorno también es estocástico?
No.
Una política óptima es generalmente determinista a menos que:
Falta información importante sobre el estado (un POMDP). Por ejemplo, en un mapa donde el agente no puede saber su ubicación exacta o recordar estados anteriores, y el estado que se le da no es suficiente para desambiguar entre ubicaciones. Si el objetivo es llegar a una ubicación final específica, la política óptima puede incluir algunos movimientos aleatorios para evitar quedarse atascado. Tenga en cuenta que el entorno en este caso podría ser determinista (desde la perspectiva de alguien que puede ver todo el estado), pero aún así podría requerir una política estocástica para resolverlo.
Hay algún tipo de escenario de teoría de juegos minimax, donde una política determinista puede ser castigada por el medio ambiente u otro agente. Piense en tijeras / papel / piedra o dilema del prisionero.
Intuitivamente, si el entorno es determinista (es decir, si el agente está en un estado 𝑠 y toma medidas 𝑎, entonces el siguiente estado 𝑠 ′ siempre es el mismo, sin importar el paso de tiempo), entonces la política óptima también debe ser determinista (es decir, debe ser un mapa de estados a acciones, y no a una distribución de probabilidad sobre acciones).
Parece razonable, pero puede llevar esa intuición más allá con cualquier método basado en una función de valor:
Si ha encontrado una función de valor óptimo, entonces actuar con avidez con respecto a ella es la política óptima.
La declaración anterior es solo una reformulación en lenguaje natural de la ecuación de optimización de Bellman:
v∗(s)=maxa∑r,s′p(r,s′|s,a)(r+γv∗(s′))
maxa
Por lo tanto, cualquier entorno que pueda ser modelado por un MDP y resuelto por un método basado en valores (por ejemplo, iteración de valores, Q-learning) tiene una política óptima que es determinista.
Es posible en un entorno tal que la solución óptima no sea estocástica en absoluto (es decir, si agrega cualquier aleatoriedad a la política óptima determinista, la política será estrictamente peor). Sin embargo, cuando existen vínculos para el valor máximo de una o más acciones en uno o más estados, existen múltiples políticas óptimas y deterministas equivalentes. Puede construir una política estocástica que las mezcle en cualquier combinación, y también será óptima.