Diferencia entre programación dinámica y aprendizaje de diferencia temporal en aprendizaje de refuerzo

En el aprendizaje por refuerzo, ¿cuál es la diferencia entre la programación dinámica y el aprendizaje por diferencia temporal?

reinforcement-learning

— tdc
fuente

DP resuelve la política óptima o la función de valor por recursividad. Requiere conocimiento del proceso de decisión de Markov (MDP) o un modelo del mundo para que las recursiones puedan llevarse a cabo. Por lo general, se agrupa bajo "planificación" en lugar de "aprendizaje", en el sentido de que ya conoce el MDP y solo necesita averiguar qué hacer (de manera óptima).

TD no tiene modelo: no requiere el conocimiento de un modelo del mundo. Es iterativo y se basa en la simulación, y aprende mediante bootstrapping, es decir, el valor de un estado o acción se estima utilizando los valores de otros estados o acciones.

Para más información, ver:

http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html