¿Por qué no hay probabilidad de transición en Q-Learning (aprendizaje de refuerzo)?


8

En el aprendizaje por refuerzo, nuestro objetivo es optimizar la función de valor de estado o la función de valor de acción, que se definen de la siguiente manera:

Vsπ=p(s|s,π(s))[r(s|s,π(s))+γVπ(s)]=Eπ[r(s|s,a)+γVπ(s)|s0=s]

Qπ(s,a)=p(s|s,s)[r(s|s,a)+γVπ(s)]=Eπ[r(s|s,a)+γVπ(s)|s0=s,a0=a]

Sin embargo, cuando usamos el método Q-learning para obtener la estrategia óptima, el método de actualización es el siguiente:

Q(S,A) Q(S,A)+α[R+γmaxa(Q(s,a))Q(S,A)]

Mi pregunta es:

por qué en Q-learning no hay probabilidad de transición p(s|s,a) . ¿Significa que no necesitamos esta p al modelar MDP?

Respuestas:


6

Los algoritmos que no aprenden la función de probabilidad de transición de estado se denominan sin modelo . Uno de los principales problemas con los algoritmos basados ​​en modelos es que a menudo hay muchos estados, y un modelo ingenuo es cuadrático en cuanto al número de estados. Eso impone un gran requerimiento de datos.

Q-learning no tiene modelos. No aprende una función de probabilidad de transición de estado.


1
Sin embargo, en MDP, siempre hay una probabilidad. Si no hay probabilidad de transición, significa que esto es contradictorio con el supuesto básico en el aprendizaje por refuerzo, ya que RL supone que el proceso es Markov.
Hokies

3
@FzLbMj Por supuesto, las probabilidades de transición existen en algún lugar. El punto es, como dije, que no se aprenden .
Neil G

1
@nbro Modelo basado significa aprender la dinámica del entorno. Aquí hay un modelo que hace eso: Kuvayev, D. y Richard S. Sutton. Aprendizaje basado en modelos de refuerzo. Tech. rept. universidad de massachusetts, departamento de ciencias de la computación, 1997. Como referencia, puede usar google scholar cuando no sabe algo.
Neil G

1
Acabo de enviarle un documento que puede leer que tiene un algoritmo que aprende las probabilidades de transición. Ver sección 5.
Neil G

2
@nbro Obviamente tenemos un desacuerdo sobre las definiciones, así que si quieres ser convincente, apoya tu afirmación con una referencia.
Neil G

2

Para mayor claridad, creo que debería reemplazar con ya que solo hay una función de valor de acción, solo estamos evaluando Q en acciones en el siguiente estado. Esta notación también sugiere dónde se encuentra la .maxa(Q,a)maxa(Q(S,a))p(s|s,a)

Intuitivamente, es una propiedad del medio ambiente. No controlamos cómo funciona, sino que simplemente tomamos muestras de él. Antes de llamar a esta actualización, primero tenemos que tomar una acción A mientras estamos en el estado S. El proceso de hacer esto nos da una recompensa y nos envía al siguiente estado. El siguiente estado en el que aterrizas se extrae de por definición. Entonces, en la actualización de Q-learning, esencialmente asumimos que es 1 porque allí es donde terminamos.p(s|s,a)p(s|s,a)p(s|s,a)

Esto está bien porque es un método iterativo en el que estamos estimando la función óptima de valor de acción sin conocer la dinámica completa del entorno y más específicamente el valor de . Si tiene un modelo del entorno que le proporciona esta información, puede cambiar la actualización para incluirla simplemente cambiando el retorno a .p(s|s,a)γp(S|S,A)maxa(Q(S,a))


Muchas gracias por su respuesta. Entonces, cuando usamos Q-learning, simplemente asumimos que todas las acciones tienen la misma probabilidad. Por cierto, ¿tiene alguna idea sobre qué método ( SARSAo Q-learning) debe usar cuando se trata de diferentes situaciones? Gracias.
Hokies

No asumimos que todas las acciones tienen la misma probabilidad. Suponemos que la función de transición es determinista para nuestro cálculo. Es decir, si realiza la misma acción desde el mismo estado, llegará al mismo estado siguiente. Para Sarsa vs Q-learning, mira aquí: stackoverflow.com/questions/6848828/…
Alex

0

Además de lo anterior, Q-Learning es un algoritmo sin modelo , lo que significa que nuestro agente solo conoce los estados que le da el entorno. En otras palabras, si un agente selecciona y realiza una acción, el siguiente estado solo lo determina el entorno y se lo da al agente. Por esa razón, el agente no piensa en las probabilidades de transición de estado.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.