¿Es una política siempre determinista en el aprendizaje por refuerzo?

En el aprendizaje por refuerzo, ¿es una política siempre determinista, o es una distribución de probabilidad sobre las acciones (de las cuales tomamos muestras)? Si la política es determinista, ¿por qué no es la función de valor, que se define en un estado dado para una política dada siguiente manera? $\pi$

V^{π} (s) = mi [\sum_{t > 0 0} γ^{t} r_{t} El | s_{0 0} = s, π]

$V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 = s, \pi\right]$

un punto de salida?

En la definición anterior, tomamos una expectativa. ¿Sobre qué ha terminado esta expectativa?

¿Puede una política conducir a diferentes rutas?

reinforcement-learning deterministic-policy stochastic-policy

— MiloMinderbinder
fuente

Una pregunta relacionada sobre StackOverflow: stackoverflow.com/q/46260775/712995

— Maxim

Aquí hay varias preguntas: 1. ¿Es una política siempre determinista? 2. Si la política es determinista, ¿no debería ser el valor también determinista? 3. ¿Cuál es la expectativa en la estimación de la función de valor? Su última pregunta no está muy clara: "¿Puede una política conducir a rutas que tengan valores actuales diferentes?" pero creo que quiere decir: 4. ¿Puede una política conducir a diferentes rutas?

Una política es una función que puede ser determinista o estocástica. Dicta qué acción tomar dado un estado particular. La distribución se usa para una política estocástica y una función de mapeo se usa para una política determinista, donde es el conjunto de estados posibles y es el conjunto de acciones posibles . $\pi(a\mid s)$ $\pi:S \rightarrow A$ $S$ $A$
La función de valor no es determinista. El valor (de un estado) es la recompensa esperada si comienza en ese estado y continúa siguiendo una política. Incluso si la política es determinista, la función de recompensa y el entorno podrían no serlo.
La expectativa en esa fórmula es sobre todas las rutas posibles a partir del estado $s$ . Por lo general, las rutas o caminos se descomponen en múltiples pasos, que se utilizan para entrenar estimadores de valor. Estos pasos pueden ser representados por la tupla $(s,a,r,s')$ (estado, acción, recompensa, siguiente estado)
Esto está relacionado con la respuesta 2, la política puede conducir a diferentes caminos (incluso una política determinista) porque el entorno generalmente no es determinista.

— ANUNCIO
fuente

¿Me puede dar un ejemplo de que el entorno no es determinista? tal como lo veo, si el agente aplica acción

a

$a$ a un ambiente en estado

s

$s$ , cambia de forma determinista el entorno a

s^{‘}

$s^`$

— MiloMinderbinder

Un ejemplo clásico es un robot que realiza movimientos hacia la izquierda un paso (acción) pero la superficie es resbaladiza (caminar sobre hielo), por lo que en realidad se mueve 2 pasos hacia la izquierda. De hecho, tales entornos son la norma y están ampliamente estudiados. Mi ejemplo es en realidad el conocido entorno de "juguete": gym.openai.com/envs/FrozenLake-v0

— AD

por lo estado y la acción sobre ella conduce a una dist prob sobre . Lo tengo bien?

s

$s$

a

$a$

s^{‘}

$s^`$

— MiloMinderbinder

Sí, al igual que es estocástico, también es estocástico.

p (a ∣ s)

$p(a\mid s)$

p (s^{'} ∣ s, a)

$p(s' \mid s, a)$

— AD

solo dos cosas más: 1. es estocástico solo en la política estocástica ¿verdad? 2. ¿Puede confirmar que la otra respuesta publicada es incorrecta acerca de cuál es la expectativa tomada en parte para que pueda aceptar su respuesta?

p (a | s)

$p(a|s)$

— MiloMinderbinder

La política puede ser estocástica o determinista. La expectativa es sobre ejemplos de entrenamiento dadas las condiciones. La función de valor es una estimación del rendimiento, por lo que es una expectativa.

— Neil G
fuente