Derivando la ecuación de Bellman en el aprendizaje por refuerzo


Respuestas:


7

Esta es la respuesta para todos los que se preguntan sobre las matemáticas limpias y estructuradas que hay detrás (es decir, si perteneces al grupo de personas que sabe qué es una variable aleatoria y que debes mostrar o asumir que una variable aleatoria tiene una densidad, entonces esto es la respuesta para ti ;-)):

En primer lugar, debemos tener que el Proceso de decisión de Markov solo tiene un número finito de recompensas , es decir, necesitamos que exista un conjunto finito de densidades, cada una de las cuales pertenece a las variables , es decir, para todas las y un mapa tal que (es decir, en los autómatas detrás del MDP, puede haber infinitos estados, pero solo finitamente hay muchas distribuciones de recompensas asociadas a las posibles transiciones infinitas entre los estados)L1EL1Rxe(x)dx<eEF:A×SE

p(rt|at,st)=F(at,st)(rt)
L1

Teorema 1 : Sea (es decir, una variable aleatoria real integrable) y sea otra variable aleatoria tal que tengan una densidad común y luego XL1(Ω)YX,Y

E[X|Y=y]=Rxp(x|y)dx

Prueba : esencialmente probado aquí por Stefan Hansen.

Teorema 2 : Sea y sea otras variables aleatorias tales que tienen una densidad común y luego donde es la gama de .XL1(Ω)Y,ZX,Y,Z

E[X|Y=y]=Zp(z|y)E[X|Y=y,Z=z]dz
ZZ

Prueba :

E[X|Y=y]=Rxp(x|y)dx    (by Thm. 1)=Rxp(x,y)p(y)dx=RxZp(x,y,z)dzp(y)dx=ZRxp(x,y,z)p(y)dxdz=ZRxp(x|y,z)p(z|y)dxdz=Zp(z|y)Rxp(x|y,z)dxdz=Zp(z|y)E[X|Y=y,Z=z]dz    (by Thm. 1)

Ponga y ponga entonces se puede mostrar (usando el hecho de que el MDP solo tiene muchas -rewards) que converge y que desde la funcióntodavía está en (es decir, integrable) también se puede demostrar (mediante el uso de la combinación habitual de los teoremas de la convergencia monótona y luego la convergencia dominada en las ecuaciones definitorias para [las factorizaciones de] la expectativa condicional) que Ahora uno muestra que Gt=k=0γkRt+kGt(K)=k=0KγkRt+kL1Gt(K)k=0γk|Rt+k|L1(Ω)

limKE[Gt(K)|St=st]=E[Gt|St=st]
E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1(K1)|St+1=st+1]dst+1
G ( K ) t = R t + γ G ( K - 1 ) t + 1 E [ G ( K - 1 ) t + 1 usando , Thm. 2 arriba entonces Thm. 1 en y luego usando una guerra de marginación directa, uno muestra que para todos . Ahora necesitamos aplicar el límite a ambos lados de la ecuación. Para llevar el límite a la integral sobre el espacio de estado necesitamos hacer algunas suposiciones adicionales:Gt(K)=Rt+γGt+1(K1)E[Gt+1(K1)|St+1=s,St=st]p(rq|st+1,st)=p(rq|st+1)qt+1KS

O el espacio de estado es finito (entonces y la suma es finita) o todas las recompensas son todas positivas (entonces usamos convergencia monótona) o todas las recompensas son negativas (luego ponemos un signo menos delante del ecuación y usar convergencia monótona de nuevo) o todas las recompensas están limitadas (entonces usamos convergencia dominada) Luego (aplicando a ambos lados de la ecuación de Bellman parcial / finita anterior) obtenemosS=SlimK

E[Gt|St=st]=E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1|St+1=st+1]dst+1

y luego el resto es la manipulación habitual de la densidad.

OBSERVACIÓN: ¡Incluso en tareas muy simples, el espacio de estado puede ser infinito! Un ejemplo sería la tarea de "equilibrar un poste". El estado es esencialmente el ángulo del polo (un valor en , ¡un conjunto infinitamente incontable!)[0,2π)

OBSERVACIÓN: La gente podría comentar 'masa, esta prueba se puede acortar mucho más si solo usa la densidad de directamente y muestra que '... PERO ... mis preguntas serían:Gtp(gt+1|st+1,st)=p(gt+1|st+1)

  1. ¿Cómo es que incluso sabes que tiene una densidad?Gt+1
  2. ¿Cómo es que incluso sabes que tiene una densidad común junto con ?Gt+1St+1,St
  3. ¿Cómo deduce que ? Esta no es solo la propiedad de Markov: la propiedad de Markov solo le dice algo acerca de las distribuciones marginales, pero estas no necesariamente determinan la distribución completa, vea, por ejemplo, ¡gaussianos multivariados!p(gt+1|st+1,st)=p(gt+1|st+1)

10

Sea la suma total de las recompensas con descuento después del tiempo : G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . .t
Gt=Rt+1+γRt+2+γ2Rt+3+...

El valor de utilidad de comenzar en el estado, en el tiempo, es equivalente a la suma esperada de recompensas con descuento de ejecutar la política partir del estado adelante. Por definición de Por ley de linealidad Por ley det R π s U π ( S t = s ) = E π [ G t | S t = s ]st
Rπs
Uπ(St=s)=Eπ[Gt|St=s]
G t = E π [ ( R t + 1 + γ ( R t + 2 + γ R t + 3 + . . .=Eπ[(Rt+1+γRt+2+γ2Rt+3+...)|St=s]Gt
= E π [ ( R t + 1 + γ ( G t + 1 ) ) | S t = s ] = E π [ R t + 1 | S t = s ] + γ E π [ G t + 1 | S t = s ]=Eπ[(Rt+1+γ(Rt+2+γRt+3+...))|St=s]
=Eπ[(Rt+1+γ(Gt+1))|St=s]
=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]
= E π [ R t + 1 | S t = s ] + γ E π [ U=Eπ[Rt+1|St=s]+γEπ[Eπ(Gt+1|St+1=s)|St=s]Expectativa total Por definición de Por ley de linealidad
U π = E π [ R t + 1 + γ U π ( S t + 1 = s ) | S t = s ]=Eπ[Rt+1|St=s]+γEπ[Uπ(St+1=s)|St=s]Uπ
=Eπ[Rt+1+γUπ(St+1=s)|St=s]

Suponiendo que el proceso satisface la propiedad de Markov:
Probabilidad de terminar en el estado habiendo comenzado desde el estado tomado la acción , y Recompensa de terminar en el estado habiendo comenzado desde el estado tomado la acción , s sPrssP r ( s | s , a ) = P r ( S t + 1 = s , S t = s , A t = a ) R s s a R ( s , a , s ) = [ R t + 1 | S ta
Pr(s|s,a)=Pr(St+1=s,St=s,At=a)
Rssa
R(s,a,s)=[Rt+1|St=s,At=a,St+1=s]

Por lo tanto, podemos reescribir la ecuación de utilidad anterior como,
=aπ(a|s)sPr(s|s,a)[R(s,a,s)+γUπ(St+1=s)]

Dónde; : Probabilidad de tomar medidas cuando está en estado para una política estocástica. Para la política determinista,a s a π ( a | s ) = 1π(a|s)asaπ(a|s)=1


Solo unas pocas notas: la suma sobre es igual a 1 incluso en una política estocástica, pero en una política determinista, solo hay una acción que recibe el peso completo (es decir, y el resto recibir 0 peso, por lo que ese término se elimina de la ecuación. También en la línea que usó la ley de la expectativa total, se invierte el orden de los condicionalesπ ( a | s ) = 1ππ(a|s)=1
Gilad Peleg

1
Estoy bastante seguro de que esta respuesta es incorrecta: sigamos las ecuaciones hasta la línea que involucra la ley de la expectativa total. Entonces, el lado izquierdo no depende de mientras que el lado derecho ... Es decir, si las ecuaciones son correctas, ¿para qué son correctas? Debe tener algún tipo de integral sobre ya en esa etapa. La razón es probablemente su malentendido de la diferencia de (una variable aleatoria) frente a su factorización (¡una función determinista!) ...s s E [ X | Y ] E [ X | Y = y ]sssE[X|Y]E[X|Y=y]
Fabian Werner

@FabianWerner Estoy de acuerdo en que esto no es correcto. La respuesta de Jie Shi es la respuesta correcta.
Teucer

@teucer Esta respuesta se puede solucionar porque solo falta alguna "simetrización", es decir, pero aún así, la pregunta es la misma que en la respuesta de Jie Shis: ¿Por qué es ? Esta no es solo la propiedad de Markov porque es un RV realmente complicado: ¿converge? ¿Si es así, donde? ¿Cuál es la densidad común ? Solo conocemos esta expresión para sumas finitas (convolución complicada) pero para el caso infinito? E [ G t + 1 | S t + 1 = s t + 1 , S t = s t ]E[A|C=c]=range(B)p(b|c)E[A|B=b,C=c]dPB(b)G t + 1 p ( g t + 1 , s t + 1 , s t )E[Gt+1|St+1=st+1,St=st]=E[Gt+1|St+1=st+1]Gt+1p(gt+1,st+1,st)
Fabian Werner

@FabianWerner no está seguro si puedo responder a todas las preguntas. Debajo de algunos punteros. Para la convergencia de , dado que es la suma de las recompensas con descuento, es razonable suponer que la serie converge (el factor de descuento es y a dónde converge realmente no importa). No me preocupa la densidad (siempre se puede definir una densidad conjunta siempre que tengamos variables aleatorias), solo importa si está bien definida y en ese caso lo está. < 1Gt+1<1
Teucer

8

Aquí está mi prueba. Se basa en la manipulación de distribuciones condicionales, lo que facilita su seguimiento. Espero que este te ayude.

vπ(s)=E[Gt|St=s]=E[Rt+1+γGt+1|St=s]=srgt+1ap(s,r,gt+1,a|s)(r+γgt+1)=ap(a|s)srgt+1p(s,r,gt+1|a,s)(r+γgt+1)=ap(a|s)srgt+1p(s,r|a,s)p(gt+1|s,r,a,s)(r+γgt+1)Note that p(gt+1|s,r,a,s)=p(gt+1|s) by assumption of MDP=ap(a|s)srp(s,r|a,s)gt+1p(gt+1|s)(r+γgt+1)=ap(a|s)srp(s,r|a,s)(r+γgt+1p(gt+1|s)gt+1)=ap(a|s)srp(s,r|a,s)(r+γvπ(s))
Esta es la famosa ecuación de Bellman.


¿Te importaría explicar este comentario 'Tenga en cuenta que ...' un poco más? ¿Por qué estas variables aleatorias y las variables de estado y acción tienen incluso una densidad común? Si es así, ¿por qué conoce esta propiedad que está utilizando? Puedo ver que es cierto para una suma finita, pero si la variable aleatoria es un límite ... ??? Gt+1
Fabian Werner

Para Fabián: Primero recordemos qué es . . Tenga en cuenta que solo depende directamente de y ya que captura toda la información de transición de un MDP (Más precisamente, es independiente de todos los estados, acciones y recompensas antes del tiempo dado y ). Del mismo modo, solo depende de y . Como resultado, es independiente de , G t + 1 = R t + 2 + R t + 3 + R t + 2Gt+1Gt+1=Rt+2+Rt+3+Rt+2 A t + 1 p ( s ' , r | s , a ) R t + 2 t + 1 S t + 1 A t + 1 R t +St+1At+1p(s,r|s,a)Rt+2t+1St+1At+1 S t + 2 A t + 2 G t + 1 S t A t R t S t + 1Rt+3St+2At+2Gt+1StAt, y dado , lo que explica esa línea. RtSt+1
Jie Shi

Lo sentimos, eso solo lo "motiva", en realidad no explica nada. Por ejemplo: ¿Cuál es la densidad de ? ¿Por qué estás seguro de que ? ¿Por qué estas variables aleatorias incluso tienen una densidad común? Sabes que una suma se transforma en una convolución en densidades, entonces, ¿qué ... debería tener una cantidad infinita de integrales en la densidad? ¡No hay absolutamente ningún candidato para la densidad! p ( g t + 1 | s t + 1 , s t ) = p ( g t + 1 | s t + 1 ) G t + 1Gt+1p(gt+1|st+1,st)=p(gt+1|st+1)Gt+1
Fabian Werner

A Fabián: no entiendo tu pregunta. 1. ¿Desea la forma exacta de la distribución marginal ? No lo sé y no lo necesitamos en esta prueba. 2. ¿por qué ? Porque como mencioné anteriormente, y son independientes dado . 3. ¿Qué quieres decir con "densidad común"? ¿Te refieres a la distribución conjunta? ¿Quiere saber por qué estas variables aleatorias tienen una distribución conjunta? Todas las variables aleatorias en este universo pueden tener una distribución conjunta. Si esta es su pregunta, le sugiero que encuentre un libro de teoría de probabilidad y lo lea. p ( g t + 1 | s t + 1 , s t ) = p ( g t + 1 | s t + 1 ) g t + 1 s t s t + 1p(gt+1)p(gt+1|st+1,st)=p(gt+1|st+1)gt+1stst+1
Jie Shi


2

¿Qué pasa con el siguiente enfoque?

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)srp(s,rs,a)Eπ[Rt+1+γGt+1St=s,At+1=a,St+1=s,Rt+1=r]=aπ(as)s,rp(s,rs,a)[r+γvπ(s)].

Las sumas se introducen con el fin de recuperar , y de . Después de todo, las posibles acciones y posibles estados siguientes pueden ser. Con estas condiciones adicionales, la linealidad de la expectativa conduce al resultado casi directamente.s r sasrs

Sin embargo, no estoy seguro de cuán riguroso es matemáticamente mi argumento. Estoy abierto a mejoras.


La última línea solo funciona debido a la propiedad MDP.
teucer

2

Esto es solo un comentario / adición a la respuesta aceptada.

Estaba confundido en la línea donde se aplica la ley de la expectativa total. No creo que la principal forma de ley de expectativa total pueda ayudar aquí. De hecho, aquí se necesita una variante de eso.

Si son variables aleatorias y suponiendo que exista toda la expectativa, entonces se cumple la siguiente identidad:X,Y,Z

E[X|Y]=E[E[X|Y,Z]|Y]

En este caso, , y . LuegoX=Gt+1Y=StZ=St+1

E[Gt+1|St=s]=E[E[Gt+1|St=s,St+1=s|St=s] , que por la propiedad de Markov equivale aE [ E [ G t + 1 | S t + 1 = s ] | S t =s ]E[E[Gt+1|St+1=s]|St=s]

A partir de ahí, uno podría seguir el resto de la prueba de la respuesta.


1
Bienvenido a CV! Utilice las respuestas solo para responder la pregunta. Una vez que tenga suficiente reputación (50), puede agregar comentarios.
Frans Rodenburg

Gracias. Sí, dado que no pude comentar debido a que no tengo suficiente reputación, pensé que podría ser útil agregar la explicación a las respuestas. Pero lo tendré en cuenta.
Mehdi Golari

Voté, pero aún así, a esta respuesta le faltan detalles: ¡incluso si satisface esta relación loca, entonces nadie garantiza que esto también sea cierto para las factorizaciones de las expectativas condicionales! Es decir, como en el caso con la respuesta de Ntabgoba: el lado izquierdo no depende de mientras que el lado derecho . ¡Esta ecuación no puede ser correcta! s E[X|Y]s
Fabian Werner

1

ππ(a | s)asEπ() generalmente denota la expectativa asumiendo que el agente sigue la política . En este caso, parece no determinista, es decir, devuelve la probabilidad de que el agente tome la acción cuando está en el estado .ππ(a|s)as

Parece que , en minúsculas, está reemplazando , una variable aleatoria. La segunda expectativa reemplaza la suma infinita, para reflejar el supuesto de que continuamos siguiendo para todo el futuro . es la recompensa inmediata esperada en el siguiente paso; La segunda expectativa, que se convierte en es el valor esperado del siguiente estado, ponderado por la probabilidad de terminar en el estado habiendo tomado de .R t + 1rRt+1t s , r r p ( s , r | s , a ) v π s a sπts,rrp(s,r|s,a)vπsas

Por lo tanto, la expectativa explica la probabilidad de la política, así como las funciones de transición y recompensa, aquí expresadas juntas como .p(s,r|s,a)


Gracias. Sí, lo que mencionó sobre es correcto (es la probabilidad de que el agente tome medidas cuando está en estado ). a sπ(a|s)as
Amelio Vazquez-Reina

Lo que no sigo es qué términos se expanden exactamente en qué términos en el segundo paso (estoy familiarizado con la factorización de probabilidad y la marginación, pero no tanto con RL). ¿ está expandiendo ? Es decir, ¿qué exactamente en el paso anterior es igual a exactamente en el siguiente paso? Rt
Amelio Vazquez-Reina

1
Parece que , en minúsculas, está reemplazando , una variable aleatoria, y la segunda expectativa reemplaza la suma infinita (probablemente para reflejar la suposición de que seguimos para todas las futuras ). es entonces la recompensa inmediata esperada en el siguiente paso de tiempo, y la segunda expectativa, que se convierte en es el valor esperado del siguiente estado, ponderado por la probabilidad de la liquidación, en el estado de haber tomado de . R t + 1 π t Σ p ( s ' , r | s ,rRt+1πtv π s a sΣp(s,r|s,a)rvπsas
Sean Easter

1

aunque ya se ha dado la respuesta correcta y ha pasado algún tiempo, pensé que la siguiente guía paso a paso podría ser útil:
por la linealidad del valor esperado, podemos dividir en y . Esbozaré los pasos solo para la primera parte, ya que la segunda parte sigue los mismos pasos combinados con la Ley de Expectativa Total.E[Rt+1+γE[Gt+1|St=s]]E[Rt+1|St=s]γE[Gt+1|St=s]

E[Rt+1|St=s]=rrP[Rt+1=r|St=s]=arrP[Rt+1=r,At=a|St=s](III)=arrP[Rt+1=r|At=a,St=s]P[At=a|St=s]=sarrP[St+1=s,Rt+1=r|At=a,St=s]P[At=a|St=s]=aπ(a|s)s,rp(s,r|s,a)r

Mientras que (III) sigue la forma:

P[A,B|C]=P[A,B,C]P[C]=P[A,B,C]P[C]P[B,C]P[B,C]=P[A,B,C]P[B,C]P[B,C]P[C]=P[A|B,C]P[B|C]


1

Sé que ya hay una respuesta aceptada, pero deseo proporcionar una derivación probablemente más concreta. También me gustaría mencionar que, aunque el truco de @Jie Shi tiene sentido, pero me hace sentir muy incómodo :(. Debemos tener en cuenta la dimensión del tiempo para que esto funcione. Y es importante tener en cuenta que, en realidad, la expectativa es apoderado de todo el horizonte infinito, en lugar de algo más de y . vamos suponemos partimos de (de hecho, la derivación es el mismo, independientemente de la hora de inicio; no quiero contaminar las ecuaciones con otro subíndice ) sst=0k

vπ(s0)=Eπ[G0|s0]G0=t=0T1γtRt+1Eπ[G0|s0]=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(t=0T1γtrt+1))=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(r1+γt=0T2γtrt+2))
Tabcabcaabbcc ( r TENÍA EN CUENTA QUE LA ECUACIÓN ANTERIOR SIGUE INCLUSO SI , DE HECHO SERÁ VERDAD HASTA EL FINAL DEL UNIVERSO (quizás sea un poco exagerado :))T
En esta etapa, creo que la mayoría de nosotros ya debería tener en mente cómo lo anterior conduce a la expresión final: solo necesitamos aplicar la regla de suma de productos ( ) minuciosamente . Apliquemos la ley de linealidad de Expectativa a cada término dentro deabcabcaabbcc(r1+γt=0T2γtrt+2)

Parte 1

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×r1)

Bueno, esto es bastante trivial, todas las probabilidades desaparecen (en realidad suman 1) excepto las relacionadas con . Por lo tanto, tenemos r1

a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×r1

Parte 2
Adivina qué, esta parte es aún más trivial: solo implica reorganizar la secuencia de las sumas.

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at))=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)(a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1)))

Y Eureka !! recuperamos un patrón recursivo junto a los grandes paréntesis. con , y obtenemos y la parte 2 se convierte en γt=0T2γtrt+2vπ(s1)=Eπ[G1|s1]

γEπ[G1|s1]=a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1))(γt=0T2γtrt+2)

a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×γvπ(s1)

Parte 1 + Parte 2

vπ(s0)=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×(r1+γvπ(s1))

Y ahora si podemos meternos en la dimensión del tiempo y recuperar las fórmulas recursivas generales

vπ(s)=aπ(a|s)s,rp(s,r|s,a)×(r+γvπ(s))

Confesión final, me reí cuando vi a las personas mencionadas mencionar el uso de la ley de la expectativa total. Así que aquí estoy


Erm ... ¿qué se supone que significa el símbolo ' '? No hay ... aa0,...,aa
Fabian Werner

Otra pregunta: ¿Por qué es verdadera la primera ecuación? Sé que pero en nuestro caso, sería una secuencia infinita de variables aleatorias por lo que necesitaríamos calcular la densidad de esta variable (que consiste en una cantidad infinita de variables de las cuales conocemos la densidad) junto con algo más (es decir, el estado). .. ¿Cómo es exactamente lo que haces? Es decir, ¿qué es ? X ( R 0 , R 1 , R 2 , . . . . . . . . ) P ( r 0 ,E[f(X)|Y=y]=Xf(x)p(x|y)dxX(R0,R1,R2,........)p(r0,r1,....)
Fabian Werner

@FabianWerner. Respira profundamente para calmar tu cerebro primero :). Déjame responder tu primera pregunta. . Si recuerda la definición de la función de valor, en realidad es una suma de recompensas futuras con descuento. Si consideramos un horizonte infinito para nuestras recompensas futuras, entonces necesitamos sumar un número infinito de veces. Una recompensa es el resultado de tomar una acción desde un estado, ya que hay un número infinito de recompensas, debe haber un número infinito de acciones, por lo tanto, . a a0,...,aa0a1,...,aa
Karlsson Yu

1
supongamos que estoy de acuerdo en que hay algo extraño (que todavía dudo, por lo general, los estudiantes en el primer semestre de matemáticas tienden a confundir el límite con alguna construcción que realmente involucra un elemento infinito) ... Todavía tengo una pregunta simple: ¿cómo se define " ? Sé lo que se supone que significa esta expresión con una cantidad finita de sumas ... ¿pero infinitas? ¿Qué entiendes que hace esta expresión? a 1 . . . a aa1...a
Fabian Werner

1
Internet. ¿Podría referirme a una página o cualquier lugar que defina su expresión? Si no es así, en realidad definiste algo nuevo y no tiene sentido discutir eso porque es solo un símbolo que inventaste (pero no hay ningún significado detrás de él) ... estás de acuerdo en que solo podemos discutir sobre el símbolo si ambos sabemos lo que significa, ¿verdad? Entonces, no sé lo que significa, por favor explique ...
Fabian Werner

1

Ya hay muchas respuestas a esta pregunta, pero la mayoría implica pocas palabras que describan lo que sucede en las manipulaciones. Voy a responder con más palabras, creo. Para comenzar,

Gtk=t+1Tγkt1Rk

se define en la ecuación 3.11 de Sutton y Barto, con un factor de descuento constante y podemos tener o , pero no ambos. Como las recompensas, , son variables aleatorias, también lo es ya que es simplemente una combinación lineal de variables aleatorias.0γ1T=γ=1RkGt

vπ(s)Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]

Esa última línea se deriva de la linealidad de los valores esperados. es la recompensa que gana el agente después de tomar medidas en el paso de tiempo . Por simplicidad, supongo que puede tomar un número finito de valores . Rt+1trR

Trabaja en el primer término. En palabras, necesito calcular los valores de expectativa de dado que sabemos que el estado actual es . La fórmula para esto esRt+1s

Eπ[Rt+1|St=s]=rRrp(r|s).

En otras palabras, la probabilidad de la aparición de la recompensa está condicionada por el estado ; diferentes estados pueden tener diferentes recompensas. Esta distribución es una distribución marginal de una distribución que también contenía las variables y , la acción tomada en el tiempo y el estado en el tiempo después de la acción, respectivamente:rsp(r|s)astt+1

p(r|s)=sSaAp(s,a,r|s)=sSaAπ(a|s)p(s,r|a,s).

Donde he usado , siguiendo la convención del libro. Si esa última igualdad es confusa, olvide las sumas, suprima la (la probabilidad ahora parece una probabilidad conjunta), use la ley de multiplicación y finalmente reintroduzca la condición en en todos los términos nuevos. Ahora es fácil ver que el primer término esπ(a|s)p(a|s)ss

Eπ[Rt+1|St=s]=rRsSaArπ(a|s)p(s,r|a,s),

según sea necesario. En el segundo término, donde supongo que es una variable aleatoria que adquiere un número finito de valores . Al igual que el primer término:Gt+1gΓ

Eπ[Gt+1|St=s]=gΓgp(g|s).()

Una vez más, "des-margino" la distribución de probabilidad escribiendo (ley de multiplicación nuevamente)

p(g|s)=rRsSaAp(s,r,a,g|s)=rRsSaAp(g|s,r,a,s)p(s,r,a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s)p(s,r|a,s)π(a|s)()

La última línea allí sigue de la propiedad de Markovian. Recuerde que es la suma de todas las recompensas futuras (con descuento) que el agente recibe después del estado . La propiedad de Markovian es que el proceso no tiene memoria con respecto a estados, acciones y recompensas anteriores. Las acciones futuras (y las recompensas que obtienen) dependen solo del estado en el que se realiza la acción, por lo que , por supuesto. Ok, entonces el segundo término en la prueba es ahoraGt+1 s p ( g | s , r , a , s ) = p ( g | s )sp(g|s,r,a,s)=p(g|s)

γEπ[Gt+1|St=s]=γgΓrRsSaAgp(g|s)p(s,r|a,s)π(a|s)=γrRsSaAEπ[Gt+1|St+1=s]p(s,r|a,s)π(a|s)=γrRsSaAvπ(s)p(s,r|a,s)π(a|s)

según sea necesario, una vez más. La combinación de los dos términos completa la prueba.

vπ(s)Eπ[GtSt=s]=aAπ(a|s)rRsSp(s,r|a,s)[r+γvπ(s)].

ACTUALIZAR

Quiero abordar lo que podría parecer un juego de manos en la derivación del segundo término. En la ecuación marcada con , uso un término y luego, en la ecuación marcada , afirmo que no depende de , argumentando la propiedad de Markovian. Entonces, podría decir que si este es el caso, entonces . Pero esto no es cierto. Puedo tomar porque la probabilidad en el lado izquierdo de esa declaración dice que esta es la probabilidad de condicionada en , , y()p(g|s)()gsp(g|s)=p(g)p(g|s,r,a,s)p(g|s)gsars. Debido a que conocemos o asumimos el estado , ninguno de los otros condicionales importa, debido a la propiedad de Markovian. Si no conoce o asume el estado , entonces las recompensas futuras (el significado de ) dependerán del estado en el que comience, porque eso determinará (en función de la política) en qué estado comenzará al calcular .ssgsg

Si ese argumento no te convence, intenta calcular qué es :p(g)

p(g)=sSp(g,s)=sSp(g|s)p(s)=sSp(g|s)s,a,rp(s,a,r,s)=sSp(g|s)s,a,rp(s,r|a,s)p(a,s)=sSp(s)sSp(g|s)a,rp(s,r|a,s)π(a|s)sSp(s)p(g|s)=sSp(g,s)=p(g).

Como se puede ver en la última línea, no es cierto que . El valor esperado de depende del estado en el que comienza (es decir, la identidad de ), si no conoce o asume el estado .p(g|s)=p(g)gss

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.