Estaba leyendo las notas de la conferencia de Andrew Ng sobre el aprendizaje por refuerzo, y estaba tratando de entender por qué la iteración de políticas convergía con la función de valor óptimo y la política óptima .
La iteración de la política de recuperación es:
¿Por qué es que un algoritmo codicioso conduce a una política óptima y una función de valor óptimo? (Sé que los algoritmos codiciosos no siempre garantizan eso, o pueden quedar atrapados en los óptimos locales, por lo que solo quería ver una prueba de su optimización del algoritmo).
Además, me parece que la iteración de políticas es algo análogo al agrupamiento o al descenso de gradiente. Para la agrupación, porque con la configuración actual de los parámetros, optimizamos. Similar al descenso de gradiente porque solo elige algún valor que parece aumentar alguna función. Estos dos métodos no siempre convergen a máximos óptimos, y estaba tratando de entender cómo este algoritmo era diferente de los anteriores que mencioné.
Estos son mis pensamientos hasta ahora:
Digamos que comenzamos con alguna política , luego, después del primer paso, para esa política fija tenemos que:
Donde V ^ {(1)} es la función de valor para la primera iteración. Luego, después del segundo paso, elegimos una nueva política para aumentar el valor de . Ahora, con la nueva política , si hacemos el segundo paso del algoritmo, la siguiente desigualdad es cierta:
Debido a que elegimos en el segundo paso para aumentar la función de valor en el paso anterior (es decir, para mejorar . Hasta ahora, está claro que elegir solo puede aumentar V ^ {(1)}, porque así es como elegimos . Sin embargo, mi confusión viene en el paso de repetición porque una vez que repetimos y volvemos al paso 1, en realidad cambiamos las cosas por completo porque volvemos a calcular para la nueva política . Lo que da:
pero NO es:
Lo que parece ser un problema porque se eligió para mejorar , y no esta nueva . Básicamente, el problema es que garantiza mejorar haciendo en lugar de cuando la función de valor es . Pero en el paso de repetición cambiamos a , pero no veo cómo eso garantiza que la función de valor mejore monotónicamente en cada repetición porque se calculó para mejorar la función de valor cuando las funciones de valor permanecen en, pero el paso 1 cambia a (lo cual es malo porque I solo mejoró la función de valor anterior que teníamos).