¿Cuál es la diferencia entre el aprendizaje fuera de política y dentro de política?

79

El sitio web de inteligencia artificial define el aprendizaje fuera de política y dentro de política de la siguiente manera:

"Un alumno fuera de la política aprende el valor de la política óptima independientemente de las acciones del agente. Q-learning es un alumno fuera de la política. Un alumno dentro de la política aprende el valor de la política que lleva a cabo el agente, incluidos los pasos de exploración ".

Me gustaría pedirle una aclaración al respecto, porque no parecen hacer ninguna diferencia para mí. Ambas definiciones parecen ser idénticas. Lo que realmente entendí es el aprendizaje sin modelos y basado en modelos, y no sé si tienen algo que ver con los en cuestión.

¿Cómo es posible que la política óptima se aprenda independientemente de las acciones del agente? ¿No se aprende la política cuando el agente realiza las acciones?

machine-learning reinforcement-learning artificial-intelligence

— cgo
fuente

1

Agregué un comentario a stackoverflow.com/questions/6848828/… , la parte TL; NR también podría ser útil para la comprensión.

— zyxue

Aquí hay una buena explicación nb4799.neu.edu/wordpress/?p=1850

— Ivan Kush

También me gustaría agregar que hay una variante fuera de la política de SARSA. Este documento ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) revisará la política dentro y fuera de la introducción, y luego explicará el sarsa esperado. También busque gradientes de política esperados (EPG) para encontrar una teoría más general que combine los dos tipos.

— Josh Albert

95

Primero que nada, no hay razón para que un agente tenga que hacer la acción codiciosa ; Los agentes pueden explorar o pueden seguir opciones . Esto no es lo que separa el aprendizaje dentro de la política del aprendizaje fuera de la política.

La razón por la que Q-learning no está en la política es porque actualiza sus valores Q usando el valor Q del siguiente estado y la acción codiciosa . En otras palabras, estima el rendimiento (recompensa futura con descuento total) para los pares de acción estatal asumiendo que se siguió una política codiciosa a pesar de que no está siguiendo una política codiciosa. $s'$ $a'$

La razón por la que SARSA está dentro de la política es porque actualiza sus valores Q usando el valor Q del siguiente estado y la acción de la política actual . Estima el rendimiento de los pares de acción estatal, suponiendo que se siga la política actual. $s'$ $a''$

La distinción desaparece si la política actual es una política codiciosa. Sin embargo, dicho agente no sería bueno ya que nunca explora.

¿Has mirado el libro disponible gratis en línea? Richard S. Sutton y Andrew G. Barto. Aprendizaje de refuerzo: una introducción. Segunda edición, MIT Press, Cambridge, MA, 2018.

— Neil G
fuente

8

buena explicación! Su ejemplo sobre Q-learning está mejor formulado que en el libro de Sutton, que dice: " la función de valor de acción aprendida, Q, se aproxima directamente a Q *, la función de valor de acción óptima, independiente de la política que se sigue. Esto simplifica drásticamente análisis del algoritmo y pruebas de convergencia tempranas permitidas. La política aún tiene un efecto en que determina qué pares de estado-acción se visitan y actualizan " .

— Ciprian Tomoiagă

3

En general, no encuentro a Sutton y Barto muy legibles en absoluto. Creo que las explicaciones que ofrecen no son muy comprensibles. No estoy seguro de por qué su libro se recomienda en todo el lugar

— SN

@SN Para muchos estudiantes de aprendizaje por refuerzo, Sutton y Barto es el primer libro que leen.

— Neil G

3

@JakubArnold el libro original de Sutton & Barto es de 1998 y no cubre el aprendizaje de refuerzo profundo. La segunda edición solo menciona cosas como AlphaGo, pero el enfoque del libro está en enfoques más clásicos. Si desea más recursos de RL, eche un vistazo a esta lista . Sugiero los videos de David Silver y el libro de Puterman, ya que son más accesibles. Para material más teórico, recomiendo los libros de Bertsekas. Eche un vistazo al sitio web Spinning Up para obtener algoritmos DRL y enlaces a documentos originales.

— Douglas De Rizzo Meneghetti

1

@AlbertChen "Entonces, en este caso, depende de la exploración o no": No, porque ambos algoritmos exploran. La diferencia es cómo se actualiza Q.

— Neil G

13

Los métodos basados en políticas estiman el valor de una política mientras la usan para control.

En los métodos fuera de política , la política utilizada para generar comportamiento, llamada política de comportamiento , puede no estar relacionada con la política que se evalúa y mejora, llamada política de estimación .

Una ventaja de esta separación es que la política de estimación puede ser determinista (por ejemplo, codiciosa), mientras que la política de comportamiento puede continuar muestreando todas las acciones posibles.

Para más detalles, vea las secciones 5.4 y 5.6 del libro Refuerzo de aprendizaje: Una introducción de Barto y Sutton, primera edición.

— nbro
fuente

7

La diferencia entre los métodos fuera de política y dentro de política es que con el primero no necesita seguir ninguna política específica, su agente podría incluso comportarse al azar y, a pesar de esto, los métodos fuera de política aún pueden encontrar la política óptima. Por otro lado, los métodos sobre políticas dependen de la política utilizada. En el caso de Q-Learning, que está fuera de la política, encontrará la política óptima independientemente de la política utilizada durante la exploración, sin embargo, esto es cierto solo cuando visita los diferentes estados suficientes veces. Puede encontrar en el documento original de Watkins la prueba real que muestra esta muy buena propiedad de Q-Learning. Sin embargo, existe una compensación y es decir, los métodos fuera de la política tienden a ser más lentos que los métodos dentro de la política. Aquí un enlace con otro resumen interesante de las propiedades de ambos tipos de métodos

— Juli
fuente

1

Los métodos fuera de política no solo son más lentos, sino que pueden ser inestables cuando se combinan con bootstrapping (es decir, cómo Q-learning construye estimaciones entre sí) y los aproximadores de funciones (por ejemplo, redes neuronales).

— Neil Slater

7

En primer lugar, ¿qué significa realmente la política (denotada por )? La política especifica una acción , que se toma en un estado (o más precisamente, es una probabilidad, que una acción se toma en un estado ). $\pi$
$a$ $s$ $\pi$ $a$ $s$

Segundo, ¿qué tipos de aprendizaje tenemos?
1. Evaluar la función : predecir la suma de futuras recompensas con descuento, donde es una acción es un estado. 2. Encuentre (en realidad, ), que produce una recompensa máxima. $Q(s,a)$ $a$ $s$
$\pi$ $\pi(a|s)$

De vuelta a la pregunta original. El aprendizaje dentro y fuera de la política solo se relaciona con la primera tarea: evaluar . $Q(s,a)$

La diferencia es esta:
en el aprendizaje sobre políticas , la función se aprende de las acciones, tomamos usando nuestra política actual . En el aprendizaje fuera de la política , la función se aprende de diferentes acciones (por ejemplo, acciones aleatorias). ¡Ni siquiera necesitamos una política en absoluto! $Q(s,a)$ $\pi$
$Q(s,a)$

Esta es la función de actualización para el algoritmo SARSA en política : , donde es la acción, que se realizó de acuerdo con la política . $Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))$ $a'$ $\pi$

Compárelo con la función de actualización para el algoritmo de aprendizaje de Q fuera de política : , donde son todas las acciones que se probaron en el estado . $Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma \max_{a'}Q(s',a')-Q(s,a))$ $a'$ $s'$

— Dmitry Mottl
fuente

1

Del libro de Sutton: "El enfoque basado en políticas en la sección anterior es en realidad un compromiso: aprende valores de acción no para la política óptima, sino para una política casi óptima que aún explora. Un enfoque más directo es usar dos políticas , una que se aprende y que se convierte en la política óptima, y una que es más exploratoria y se usa para generar comportamiento. La política que se está conociendo se llama política objetivo, y la política utilizada para generar comportamiento se llama política de comportamiento. En este caso, decimos que el aprendizaje proviene de los datos "o↵" de la política objetivo, y el proceso general se denomina aprendizaje de la política ".

— Oliver Goldstein
fuente

si sigues esta descripción, no es fácil decir por qué Q-learning está fuera de la política

— Albert Chen