Veo la siguiente ecuación en " En aprendizaje por refuerzo. Una introducción ", pero no sigo el paso que he resaltado en azul a continuación. ¿Cómo se deriva exactamente este paso?
Veo la siguiente ecuación en " En aprendizaje por refuerzo. Una introducción ", pero no sigo el paso que he resaltado en azul a continuación. ¿Cómo se deriva exactamente este paso?
Respuestas:
Esta es la respuesta para todos los que se preguntan sobre las matemáticas limpias y estructuradas que hay detrás (es decir, si perteneces al grupo de personas que sabe qué es una variable aleatoria y que debes mostrar o asumir que una variable aleatoria tiene una densidad, entonces esto es la respuesta para ti ;-)):
En primer lugar, debemos tener que el Proceso de decisión de Markov solo tiene un número finito de recompensas , es decir, necesitamos que exista un conjunto finito de densidades, cada una de las cuales pertenece a las variables , es decir, para todas las y un mapa tal que
(es decir, en los autómatas detrás del MDP, puede haber infinitos estados, pero solo finitamente hay muchas distribuciones de recompensas asociadas a las posibles transiciones infinitas entre los estados)
Teorema 1 : Sea (es decir, una variable aleatoria real integrable) y sea otra variable aleatoria tal que tengan una densidad común y luego
Prueba : esencialmente probado aquí por Stefan Hansen.
Teorema 2 : Sea y sea otras variables aleatorias tales que tienen una densidad común y luego
donde es la gama de .
Prueba :
Ponga y ponga entonces se puede mostrar (usando el hecho de que el MDP solo tiene muchas -rewards) que converge y que desde la funcióntodavía está en (es decir, integrable) también se puede demostrar (mediante el uso de la combinación habitual de los teoremas de la convergencia monótona y luego la convergencia dominada en las ecuaciones definitorias para [las factorizaciones de] la expectativa condicional) que
Ahora uno muestra que
O el espacio de estado es finito (entonces y la suma es finita) o todas las recompensas son todas positivas (entonces usamos convergencia monótona) o todas las recompensas son negativas (luego ponemos un signo menos delante del ecuación y usar convergencia monótona de nuevo) o todas las recompensas están limitadas (entonces usamos convergencia dominada) Luego (aplicando a ambos lados de la ecuación de Bellman parcial / finita anterior) obtenemos
y luego el resto es la manipulación habitual de la densidad.
OBSERVACIÓN: ¡Incluso en tareas muy simples, el espacio de estado puede ser infinito! Un ejemplo sería la tarea de "equilibrar un poste". El estado es esencialmente el ángulo del polo (un valor en , ¡un conjunto infinitamente incontable!)
OBSERVACIÓN: La gente podría comentar 'masa, esta prueba se puede acortar mucho más si solo usa la densidad de directamente y muestra que '... PERO ... mis preguntas serían:
Sea la suma total de las recompensas con descuento después del tiempo :
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . .
El valor de utilidad de comenzar en el estado, en el tiempo, es equivalente a la suma esperada de
recompensas con descuento de ejecutar la política partir del estado adelante.
Por definición de Por ley de linealidad
Por ley det R π s U π ( S t = s ) = E π [ G t | S t = s ]
G t = E π [ ( R t + 1 + γ ( R t + 2 + γ R t + 3 + . . .
= E π [ ( R t + 1 + γ ( G t + 1 ) ) | S t = s ] = E π [ R t + 1 | S t = s ] + γ E π [ G t + 1 | S t = s ]
= E π [ R t + 1 | S t = s ] + γ E π [ UExpectativa total
Por definición de Por ley de linealidad
U π = E π [ R t + 1 + γ U π ( S t + 1 = s ′ ) | S t = s ]
Suponiendo que el proceso satisface la propiedad de Markov:
Probabilidad de terminar en el estado habiendo comenzado desde el estado tomado la acción ,
y
Recompensa de terminar en el estado habiendo comenzado desde el estado tomado la acción ,
s ′ sP r ( s ′ | s , a ) = P r ( S t + 1 = s ′ , S t = s , A t = a ) R s ′ s a R ( s , a , s ′ ) = [ R t + 1 | S t
Por lo tanto, podemos reescribir la ecuación de utilidad anterior como,
Dónde; : Probabilidad de tomar medidas cuando está en estado para una política estocástica. Para la política determinista,a s ∑ a π ( a | s ) = 1
Aquí está mi prueba. Se basa en la manipulación de distribuciones condicionales, lo que facilita su seguimiento. Espero que este te ayude.
¿Qué pasa con el siguiente enfoque?
Las sumas se introducen con el fin de recuperar , y de . Después de todo, las posibles acciones y posibles estados siguientes pueden ser. Con estas condiciones adicionales, la linealidad de la expectativa conduce al resultado casi directamente.s ′ r s
Sin embargo, no estoy seguro de cuán riguroso es matemáticamente mi argumento. Estoy abierto a mejoras.
Esto es solo un comentario / adición a la respuesta aceptada.
Estaba confundido en la línea donde se aplica la ley de la expectativa total. No creo que la principal forma de ley de expectativa total pueda ayudar aquí. De hecho, aquí se necesita una variante de eso.
Si son variables aleatorias y suponiendo que exista toda la expectativa, entonces se cumple la siguiente identidad:
En este caso, , y . Luego
, que por la propiedad de Markov equivale aE [ E [ G t + 1 | S t + 1 = s ′ ] | S t =s ]
A partir de ahí, uno podría seguir el resto de la prueba de la respuesta.
ππ(a | s)as generalmente denota la expectativa asumiendo que el agente sigue la política . En este caso, parece no determinista, es decir, devuelve la probabilidad de que el agente tome la acción cuando está en el estado .
Parece que , en minúsculas, está reemplazando , una variable aleatoria. La segunda expectativa reemplaza la suma infinita, para reflejar el supuesto de que continuamos siguiendo para todo el futuro . es la recompensa inmediata esperada en el siguiente paso; La segunda expectativa, que se convierte en es el valor esperado del siguiente estado, ponderado por la probabilidad de terminar en el estado habiendo tomado de .R t + 1t ∑ s ′ , r r ⋅ p ( s ′ , r | s , a ) v π s ′ a s
Por lo tanto, la expectativa explica la probabilidad de la política, así como las funciones de transición y recompensa, aquí expresadas juntas como .
aunque ya se ha dado la respuesta correcta y ha pasado algún tiempo, pensé que la siguiente guía paso a paso podría ser útil:
por la linealidad del valor esperado, podemos dividir
en y .
Esbozaré los pasos solo para la primera parte, ya que la segunda parte sigue los mismos pasos combinados con la Ley de Expectativa Total.
Mientras que (III) sigue la forma:
Sé que ya hay una respuesta aceptada, pero deseo proporcionar una derivación probablemente más concreta. También me gustaría mencionar que, aunque el truco de @Jie Shi tiene sentido, pero me hace sentir muy incómodo :(. Debemos tener en cuenta la dimensión del tiempo para que esto funcione. Y es importante tener en cuenta que, en realidad, la expectativa es apoderado de todo el horizonte infinito, en lugar de algo más de y . vamos suponemos partimos de (de hecho, la derivación es el mismo, independientemente de la hora de inicio; no quiero contaminar las ecuaciones con otro subíndice )
En esta etapa, creo que la mayoría de nosotros ya debería tener en mente cómo lo anterior conduce a la expresión final: solo necesitamos aplicar la regla de suma de productos ( ) minuciosamente . Apliquemos la ley de linealidad de Expectativa a cada término dentro de
Parte 1
Bueno, esto es bastante trivial, todas las probabilidades desaparecen (en realidad suman 1) excepto las relacionadas con . Por lo tanto, tenemos
Parte 2
Adivina qué, esta parte es aún más trivial: solo implica reorganizar la secuencia de las sumas.
Y Eureka !! recuperamos un patrón recursivo junto a los grandes paréntesis. con , y obtenemos
y la parte 2 se convierte en
Parte 1 + Parte 2
Y ahora si podemos meternos en la dimensión del tiempo y recuperar las fórmulas recursivas generales
Confesión final, me reí cuando vi a las personas mencionadas mencionar el uso de la ley de la expectativa total. Así que aquí estoy
Ya hay muchas respuestas a esta pregunta, pero la mayoría implica pocas palabras que describan lo que sucede en las manipulaciones. Voy a responder con más palabras, creo. Para comenzar,
se define en la ecuación 3.11 de Sutton y Barto, con un factor de descuento constante y podemos tener o , pero no ambos. Como las recompensas, , son variables aleatorias, también lo es ya que es simplemente una combinación lineal de variables aleatorias.
Esa última línea se deriva de la linealidad de los valores esperados. es la recompensa que gana el agente después de tomar medidas en el paso de tiempo . Por simplicidad, supongo que puede tomar un número finito de valores .
Trabaja en el primer término. En palabras, necesito calcular los valores de expectativa de dado que sabemos que el estado actual es . La fórmula para esto es
En otras palabras, la probabilidad de la aparición de la recompensa está condicionada por el estado ; diferentes estados pueden tener diferentes recompensas. Esta distribución es una distribución marginal de una distribución que también contenía las variables y , la acción tomada en el tiempo y el estado en el tiempo después de la acción, respectivamente:
Donde he usado , siguiendo la convención del libro. Si esa última igualdad es confusa, olvide las sumas, suprima la (la probabilidad ahora parece una probabilidad conjunta), use la ley de multiplicación y finalmente reintroduzca la condición en en todos los términos nuevos. Ahora es fácil ver que el primer término es
según sea necesario. En el segundo término, donde supongo que es una variable aleatoria que adquiere un número finito de valores . Al igual que el primer término:
Una vez más, "des-margino" la distribución de probabilidad escribiendo (ley de multiplicación nuevamente)
La última línea allí sigue de la propiedad de Markovian. Recuerde que es la suma de todas las recompensas futuras (con descuento) que el agente recibe después del estado . La propiedad de Markovian es que el proceso no tiene memoria con respecto a estados, acciones y recompensas anteriores. Las acciones futuras (y las recompensas que obtienen) dependen solo del estado en el que se realiza la acción, por lo que , por supuesto. Ok, entonces el segundo término en la prueba es ahora s ′ p ( g | s ′ , r , a , s ) = p ( g | s ′ )
según sea necesario, una vez más. La combinación de los dos términos completa la prueba.
ACTUALIZAR
Quiero abordar lo que podría parecer un juego de manos en la derivación del segundo término. En la ecuación marcada con , uso un término y luego, en la ecuación marcada , afirmo que no depende de , argumentando la propiedad de Markovian. Entonces, podría decir que si este es el caso, entonces . Pero esto no es cierto. Puedo tomar porque la probabilidad en el lado izquierdo de esa declaración dice que esta es la probabilidad de condicionada en , , y. Debido a que conocemos o asumimos el estado , ninguno de los otros condicionales importa, debido a la propiedad de Markovian. Si no conoce o asume el estado , entonces las recompensas futuras (el significado de ) dependerán del estado en el que comience, porque eso determinará (en función de la política) en qué estado comenzará al calcular .
Si ese argumento no te convence, intenta calcular qué es :
Como se puede ver en la última línea, no es cierto que . El valor esperado de depende del estado en el que comienza (es decir, la identidad de ), si no conoce o asume el estado .