Estadísticas y Big Data temporal-difference

¿Cuándo se prefieren los métodos de Monte Carlo sobre los de diferencia temporal?

Últimamente he estado investigando mucho sobre el aprendizaje por refuerzo. Seguí el aprendizaje de refuerzo de Sutton y Barto : una introducción para la mayor parte de esto. Sé qué son los procesos de decisión de Markov y cómo se puede utilizar el aprendizaje de programación dinámica (DP), Monte Carlo …

12 monte-carlo reinforcement-learning temporal-difference

Preguntas etiquetadas con temporal-difference