Preguntas etiquetadas con policy-iteration

2
¿Por qué el algoritmo de iteración de política converge a la función óptima de política y valor?
Estaba leyendo las notas de la conferencia de Andrew Ng sobre el aprendizaje por refuerzo, y estaba tratando de entender por qué la iteración de políticas convergía con la función de valor óptimo y la política óptima .V∗V∗V^*π∗π∗\pi^* La iteración de la política de recuperación es: Initialize π randomlyRepeat{Let V:=Vπ …
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.