Preguntas etiquetadas con policy-gradients

1
¿Cuál es la relación entre Q-learning y los métodos de gradientes de políticas?
Según tengo entendido, Q-learning y gradientes de políticas (PG) son los dos enfoques principales utilizados para resolver problemas de RL. Mientras que Q-learning tiene como objetivo predecir la recompensa de una determinada acción tomada en un determinado estado, los gradientes de políticas predicen directamente la acción en sí. Sin embargo, …
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.