2
¿Por qué el algoritmo de iteración de política converge a la función óptima de política y valor?
Estaba leyendo las notas de la conferencia de Andrew Ng sobre el aprendizaje por refuerzo, y estaba tratando de entender por qué la iteración de políticas convergía con la función de valor óptimo y la política óptima .V∗V∗V^*π∗π∗\pi^* La iteración de la política de recuperación es: Initialize π randomlyRepeat{Let V:=Vπ …