Preguntas etiquetadas con q-learning

1
¿Cuál es la relación entre Q-learning y los métodos de gradientes de políticas?
Según tengo entendido, Q-learning y gradientes de políticas (PG) son los dos enfoques principales utilizados para resolver problemas de RL. Mientras que Q-learning tiene como objetivo predecir la recompensa de una determinada acción tomada en un determinado estado, los gradientes de políticas predicen directamente la acción en sí. Sin embargo, …


2
¿Por qué el Q-learning no converge cuando se usa la aproximación de funciones?
El algoritmo de aprendizaje Q tabular está garantizado para encontrar la función QQQ óptima , Q∗Q∗Q^* , siempre que las siguientes condiciones (lascondiciones Robbins-Monro) con respecto a la tasa de aprendizaje se satisfacen ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty donde αt(s,a)αt(s,a)\alpha_t(s, a) significa la tasa de …
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.