Descripción general sobre algoritmos de aprendizaje por refuerzo


9

Actualmente estoy buscando una visión general sobre los algoritmos de aprendizaje por refuerzo y tal vez una clasificación de ellos. Pero al lado de Sarsa y Q-Learning + Deep Q-Learning realmente no puedo encontrar ningún algoritmo popular.

Wikipedia me da una visión general sobre diferentes métodos generales de aprendizaje de refuerzo, pero no hay referencia a diferentes algoritmos que implementan estos métodos.

Pero tal vez estoy confundiendo enfoques y algoritmos generales y, básicamente, no existe una clasificación real en este campo, como en otros campos del aprendizaje automático. ¿Puede alguien darme una breve introducción o solo una referencia donde pueda comenzar a leer los diferentes enfoques, las diferencias entre ellos y los algoritmos de ejemplo que implementan estos enfoques?


Respuestas:


14

Hay una buena encuesta aquí .

π

Estos métodos incluyen el popular algoritmo REINFORCE, que es un algoritmo de gradientes de política. TRPO y GAE son algoritmos de gradientes de política similares.

Hay muchas otras variantes en los gradientes de políticas y se puede combinar con Q-learning en el marco actor-crítico. El algoritmo A3C (ventaja asíncrona actor-crítico) es uno de esos algoritmos de actor-crítico y una línea de base muy sólida en el aprendizaje por refuerzo.

π

Además de Q-learning y gradientes de políticas, que se aplican en entornos libres de modelo (ninguno de los algoritmos mantiene un modelo del mundo), también hay métodos basados ​​en modelos que estiman el estado del mundo. Estos modelos son valiosos porque pueden ser mucho más eficientes en muestras.

Los algoritmos basados ​​en modelos no son exclusivos con gradientes de políticas o Q-learning. Un enfoque común es realizar una estimación de estado / aprender un modelo dinámico y luego entrenar una política sobre el estado estimado.

Entonces, para una clasificación, un desglose sería

  • Q o V función de aprendizaje
  • Métodos basados ​​en políticas
  • Modelo basado

Los métodos basados ​​en políticas pueden subdividirse en

  • Gradientes de política
  • Actor Crítico
  • Búsqueda de políticas
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.