En robótica, la técnica de aprendizaje de refuerzo se utiliza para encontrar el patrón de control de un robot. Desafortunadamente, la mayoría de los métodos de gradiente de políticas están sesgados estadísticamente, lo que podría llevar al robot a una situación insegura, consulte la página 2 en Jan Peters y Stefan Schaal: aprendizaje de refuerzo de habilidades motoras con gradientes de políticas, 2008
Con el aprendizaje motor primitivo, es posible superar el problema porque la optimización de parámetros de gradiente de política dirige los pasos de aprendizaje hacia la meta.
cita: "Si la estimación del gradiente es imparcial y las tasas de aprendizaje cumplen la suma (a) = 0, se garantiza que el proceso de aprendizaje converge al menos a un mínimo local [...] Por lo tanto, necesitamos estimar el gradiente de la política solo a partir de los datos generados durante la ejecución de una tarea. ”(Página 4 del mismo documento)
En la tarea para el problema 1 de la clase RL de Berkeley , le pide que demuestre que el gradiente de la política sigue siendo imparcial si la línea base restada es una función del estado en el paso de tiempo t.
Estoy luchando sobre cuál podría ser el primer paso de tal prueba. ¿Alguien me puede apuntar en la dirección correcta? Mi pensamiento inicial fue utilizar de alguna manera la ley de la expectativa total para condicionar la expectativa de b (st) a T, pero no estoy seguro. Gracias por adelantado :)