Preguntas etiquetadas con reinforcement-learning

Para preguntas relacionadas con el aprendizaje controlado por refuerzo positivo externo o señal de retroalimentación negativa o ambas, donde el aprendizaje y el uso de lo aprendido hasta ahora ocurren simultáneamente.


1
¿Cuál es la relación entre Q-learning y los métodos de gradientes de políticas?
Según tengo entendido, Q-learning y gradientes de políticas (PG) son los dos enfoques principales utilizados para resolver problemas de RL. Mientras que Q-learning tiene como objetivo predecir la recompensa de una determinada acción tomada en un determinado estado, los gradientes de políticas predicen directamente la acción en sí. Sin embargo, …


2
¿Cómo definir estados en el aprendizaje por refuerzo?
Estoy estudiando el aprendizaje por refuerzo y sus variantes. Estoy empezando a comprender cómo funcionan los algoritmos y cómo se aplican a un MDP. Lo que no entiendo es el proceso de definición de los estados del MDP. En la mayoría de los ejemplos y tutoriales, representan algo simple como …







2
¿Por qué el Q-learning no converge cuando se usa la aproximación de funciones?
El algoritmo de aprendizaje Q tabular está garantizado para encontrar la función QQQ óptima , Q∗Q∗Q^* , siempre que las siguientes condiciones (lascondiciones Robbins-Monro) con respecto a la tasa de aprendizaje se satisfacen ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty donde αt(s,a)αt(s,a)\alpha_t(s, a) significa la tasa de …



1
¿Cómo se pueden aplicar los gradientes de políticas en el caso de múltiples acciones continuas?
Trusted Region Policy Optimization (TRPO) y Proximal Policy Optimization (PPO) son dos algoritmos de gradientes de políticas de vanguardia. Al usar una sola acción continua, normalmente, usaría alguna distribución de probabilidad (por ejemplo, gaussiana) para la función de pérdida. La versión aproximada es: L(θ)=log(P(a1))A,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, donde es la …


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.