Descripción general sobre algoritmos de aprendizaje por refuerzo

Actualmente estoy buscando una visión general sobre los algoritmos de aprendizaje por refuerzo y tal vez una clasificación de ellos. Pero al lado de Sarsa y Q-Learning + Deep Q-Learning realmente no puedo encontrar ningún algoritmo popular.

Wikipedia me da una visión general sobre diferentes métodos generales de aprendizaje de refuerzo, pero no hay referencia a diferentes algoritmos que implementan estos métodos.

Pero tal vez estoy confundiendo enfoques y algoritmos generales y, básicamente, no existe una clasificación real en este campo, como en otros campos del aprendizaje automático. ¿Puede alguien darme una breve introducción o solo una referencia donde pueda comenzar a leer los diferentes enfoques, las diferencias entre ellos y los algoritmos de ejemplo que implementan estos enfoques?

reinforcement-learning q-learning

— Grecia57
fuente

Relacionado: Recursos para comenzar con el aprendizaje de refuerzo profundo

— Franck Dernoncourt

Hay una buena encuesta aquí .

$\pi$

Estos métodos incluyen el popular algoritmo REINFORCE, que es un algoritmo de gradientes de política. TRPO y GAE son algoritmos de gradientes de política similares.

Hay muchas otras variantes en los gradientes de políticas y se puede combinar con Q-learning en el marco actor-crítico. El algoritmo A3C (ventaja asíncrona actor-crítico) es uno de esos algoritmos de actor-crítico y una línea de base muy sólida en el aprendizaje por refuerzo.

$\pi$

Además de Q-learning y gradientes de políticas, que se aplican en entornos libres de modelo (ninguno de los algoritmos mantiene un modelo del mundo), también hay métodos basados en modelos que estiman el estado del mundo. Estos modelos son valiosos porque pueden ser mucho más eficientes en muestras.

Los algoritmos basados en modelos no son exclusivos con gradientes de políticas o Q-learning. Un enfoque común es realizar una estimación de estado / aprender un modelo dinámico y luego entrenar una política sobre el estado estimado.

Entonces, para una clasificación, un desglose sería

Q o V función de aprendizaje
Métodos basados en políticas
Modelo basado

Los métodos basados en políticas pueden subdividirse en

Gradientes de política
Actor Crítico
Búsqueda de políticas

— shimao
fuente