Actualmente estoy buscando una visión general sobre los algoritmos de aprendizaje por refuerzo y tal vez una clasificación de ellos. Pero al lado de Sarsa y Q-Learning + Deep Q-Learning realmente no puedo encontrar ningún algoritmo popular.
Wikipedia me da una visión general sobre diferentes métodos generales de aprendizaje de refuerzo, pero no hay referencia a diferentes algoritmos que implementan estos métodos.
Pero tal vez estoy confundiendo enfoques y algoritmos generales y, básicamente, no existe una clasificación real en este campo, como en otros campos del aprendizaje automático. ¿Puede alguien darme una breve introducción o solo una referencia donde pueda comenzar a leer los diferentes enfoques, las diferencias entre ellos y los algoritmos de ejemplo que implementan estos enfoques?