Inteligencia artificial reinforcement-learning

6

¿Cuál es la diferencia entre el aprendizaje por refuerzo sin modelos y el basado en modelos?

¿Cuál es la diferencia entre el aprendizaje por refuerzo sin modelos y el basado en modelos? Me parece que cualquier alumno sin modelo, que aprenda a través de prueba y error, podría reformularse como basado en el modelo. En ese caso, ¿cuándo serían apropiados los alumnos sin modelos?

29 reinforcement-learning comparison model-based model-free

1

¿Cuál es la relación entre Q-learning y los métodos de gradientes de políticas?

Según tengo entendido, Q-learning y gradientes de políticas (PG) son los dos enfoques principales utilizados para resolver problemas de RL. Mientras que Q-learning tiene como objetivo predecir la recompensa de una determinada acción tomada en un determinado estado, los gradientes de políticas predicen directamente la acción en sí. Sin embargo, …

21 reinforcement-learning q-learning policy-gradients comparison

4

¿Cómo manejar movimientos inválidos en el aprendizaje por refuerzo?

Quiero crear una IA que pueda jugar cinco en raya / gomoku. Como mencioné en el título, quiero usar el aprendizaje de refuerzo para esto. Utilizo el método de gradiente de políticas , a saber, REINFORCE, con línea de base. Para el valor y la aproximación de la función política, …

20 machine-learning reinforcement-learning game-ai combinatorial-games

2

¿Cómo definir estados en el aprendizaje por refuerzo?

Estoy estudiando el aprendizaje por refuerzo y sus variantes. Estoy empezando a comprender cómo funcionan los algoritmos y cómo se aplican a un MDP. Lo que no entiendo es el proceso de definición de los estados del MDP. En la mayoría de los ejemplos y tutoriales, representan algo simple como …

14 reinforcement-learning

2

¿Qué es la eficiencia de la muestra y cómo se puede utilizar el muestreo de importancia para lograrlo?

Por ejemplo, el título de este artículo dice: "Muestra de actor-crítico eficiente con repetición de experiencia". ¿Qué es la eficiencia de la muestra y cómo se puede utilizar el muestreo de importancia para lograrlo?

14 reinforcement-learning statistical-ai importance-sampling

3

¿Hay otras aplicaciones de refuerzo de aprendizaje que no sean juegos?

¿Hay alguna manera de enseñar el aprendizaje por refuerzo en aplicaciones que no sean juegos? Los únicos ejemplos que puedo encontrar en Internet son de agentes de juegos. Entiendo que los VNC controlan la entrada a los juegos a través de la red de refuerzo. ¿Es posible configurar esto con …

13 reinforcement-learning applications

1

¿Por qué no ve capas de abandono en ejemplos de aprendizaje de refuerzo?

He estado buscando aprendizaje de refuerzo y específicamente jugando con la creación de mis propios entornos para usar con OpenAI Gym AI. Estoy usando agentes del proyecto stable_baselines para probar con él. Una cosa que he notado en prácticamente todos los ejemplos de RL es que nunca parece haber capas …

13 machine-learning reinforcement-learning overfitting dropout

1

¿Cuándo debo usar Reinforcement Learning vs PID Control?

Al diseñar soluciones a problemas como el Lunar Lander en OpenAIGym , el refuerzo de aprendizaje es un medio tentador para darle al agente el control de acción adecuado para aterrizar con éxito. Pero, ¿en qué casos los algoritmos del sistema de control, como los controladores PID , harían un …

12 reinforcement-learning ai-design control-theory

1

¿Por qué DQN requiere dos redes diferentes?

Estaba pasando por esta implementación de DQN y veo que en la línea 124 y 125 se han inicializado dos redes Q diferentes. Según tengo entendido, creo que una red predice la acción apropiada y la segunda red predice los valores de Q objetivo para encontrar el error de Bellman. …

12 reinforcement-learning q-learning dqn

3

¿Cómo implementar un espacio de acción restringido en el aprendizaje por refuerzo?

Estoy codificando un modelo de aprendizaje de refuerzo con un agente PPO gracias a la muy buena biblioteca Tensorforce , construida sobre Tensorflow. La primera versión fue muy simple y ahora me estoy sumergiendo en un entorno más complejo donde todas las acciones no están disponibles en cada paso. Digamos …

12 deep-learning reinforcement-learning

2

¿Por qué el Q-learning no converge cuando se usa la aproximación de funciones?

El algoritmo de aprendizaje Q tabular está garantizado para encontrar la función QQQ óptima , Q∗Q∗Q^* , siempre que las siguientes condiciones (lascondiciones Robbins-Monro) con respecto a la tasa de aprendizaje se satisfacen ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty donde αt(s,a)αt(s,a)\alpha_t(s, a) significa la tasa de …

12 reinforcement-learning q-learning deep-rl proofs function-approximation

3

¿Por qué la tasa de descuento en el algoritmo REINFORCE aparece dos veces?

Estaba leyendo el libro Aprendizaje de refuerzo: una introducción de Richard S. Sutton y Andrew G. Barto (borrador completo, 5 de noviembre de 2017). En la página 271, se presenta el pseudocódigo para el método episódico de gradiente de políticas de Montecarlo. Mirando este pseudocódigo, no puedo entender por qué …

11 reinforcement-learning algorithm rl-an-introduction reinforce

1

¿Cómo seguir siendo un investigador actualizado en la comunidad ML / RL?

Como estudiante que quiere trabajar en el aprendizaje automático, me gustaría saber cómo es posible comenzar mis estudios y cómo seguirlo para estar al día. Por ejemplo, estoy dispuesto a trabajar en problemas de RL y MAB, pero hay grandes publicaciones sobre estos temas. Además, estos temas son estudiados por …

11 machine-learning reinforcement-learning research markov-decision-process

1

¿Cómo se pueden aplicar los gradientes de políticas en el caso de múltiples acciones continuas?

Trusted Region Policy Optimization (TRPO) y Proximal Policy Optimization (PPO) son dos algoritmos de gradientes de políticas de vanguardia. Al usar una sola acción continua, normalmente, usaría alguna distribución de probabilidad (por ejemplo, gaussiana) para la función de pérdida. La versión aproximada es: L(θ)=log(P(a1))A,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, donde es la …

11 deep-learning reinforcement-learning trpo

3

¿La política óptima es siempre estocástica si el entorno también es estocástico?

¿La política óptima es siempre estocástica (es decir, un mapa de estados a una distribución de probabilidad sobre acciones) si el entorno también es estocástico? Intuitivamente, si el entorno es determinista (es decir, si el agente está en un estado sss y toma la acción unaaa , entonces el siguiente …

10 reinforcement-learning stochastic-policy deterministic-policy policy environment

Preguntas etiquetadas con reinforcement-learning