¿Alguien sabe un ejemplo de Algoritmo Williams propuesto en el documento "Una clase de algoritmos de estimación de gradiente para el aprendizaje de refuerzo en redes neuronales" http://incompleteideas.net/sutton/williams-92.pdf
¿Alguien sabe un ejemplo de Algoritmo Williams propuesto en el documento "Una clase de algoritmos de estimación de gradiente para el aprendizaje de refuerzo en redes neuronales" http://incompleteideas.net/sutton/williams-92.pdf
Respuestas:
De la conferencia RL de David Silver sobre los métodos de Gradiente de Políticas , la diapositiva 21 aquí es un pseudocódigo para el algoritmo de refuerzo episódico, que básicamente es un método basado en gradiente donde el rendimiento esperado se muestrea directamente del episodio (en lugar de estimarlo con algo aprendido) función). En este caso, el rendimiento esperado es en realidad la recompensa episódica total en ese paso, .
initialize
para cada episodio { } muestreado de la política do
para t = 1 a T - 1 do
fin de
fin de
Este algoritmo sufre una gran variación porque las recompensas muestreadas pueden ser muy diferentes de un episodio a otro, por lo tanto, este algoritmo generalmente se usa con una línea base restada de la política. Aquí hay una explicación más detallada completa con ejemplos de código.
El algoritmo REINFORCE para el aprendizaje de refuerzo de gradiente de políticas es un algoritmo de gradiente estocástico simple. Funciona bien cuando los episodios son razonablemente cortos, por lo que se pueden simular muchos episodios. Los métodos de función de valor son mejores para episodios más largos porque pueden comenzar a aprender antes del final de un solo episodio.