1
¿Cómo se pueden aplicar los gradientes de políticas en el caso de múltiples acciones continuas?
Trusted Region Policy Optimization (TRPO) y Proximal Policy Optimization (PPO) son dos algoritmos de gradientes de políticas de vanguardia. Al usar una sola acción continua, normalmente, usaría alguna distribución de probabilidad (por ejemplo, gaussiana) para la función de pérdida. La versión aproximada es: L(θ)=log(P(a1))A,L(θ)=log(P(a1))A,L(\theta) = \log(P(a_1)) A, donde es la …