Inteligencia artificial policy-gradients

¿Cuál es la relación entre Q-learning y los métodos de gradientes de políticas?

Según tengo entendido, Q-learning y gradientes de políticas (PG) son los dos enfoques principales utilizados para resolver problemas de RL. Mientras que Q-learning tiene como objetivo predecir la recompensa de una determinada acción tomada en un determinado estado, los gradientes de políticas predicen directamente la acción en sí. Sin embargo, …

21 reinforcement-learning q-learning policy-gradients comparison

Preguntas etiquetadas con policy-gradients