TL; DR.
El hecho de que la tasa de descuento sea menor que 1 es un truco matemático para hacer una suma infinita finita. Esto ayuda a probar la convergencia de ciertos algoritmos.
En la práctica, el factor de descuento podría usarse para modelar el hecho de que el tomador de decisiones no está seguro de si en el próximo instante de decisión el mundo (por ejemplo, entorno / juego / proceso ) va a terminar.
Por ejemplo:
Si el que toma las decisiones es un robot, el factor de descuento podría ser la probabilidad de que el robot se apague en el próximo instante (el mundo termina en la terminología anterior). Esa es la razón por la cual el robot es miope y no optimiza la recompensa de suma sino la
recompensa de suma con descuento .
Factor de descuento menor que 1 (en detalle)
Para responder de manera más precisa, por qué la tasa de descuento tiene que ser menor que uno, primero presentaré los Procesos de decisión de Markov (MDP).
SA
En su entorno básico, el tomador de decisiones toma una acción y obtiene una recompensa del entorno, y el entorno cambia su estado. Luego, el tomador de decisiones percibe el estado del medio ambiente, toma una acción, recibe una recompensa, etc. Las transiciones de estado son probabilísticas y dependen únicamente del estado real y la acción tomada por el tomador de decisiones. La recompensa obtenida por el tomador de decisiones depende de la acción tomada, y tanto del estado original como del nuevo del entorno.
Rai(sj,sk)aisjskaiπ π(⋅):S→Asj∈Sai∈Aπ
π
maxπ:S(n)→ailimT→∞E{∑n=1TβnRxi(S(n),S(n+1))}(1),
ββ<1
Tenga en cuenta que el problema de optimización anterior tiene un horizonte de tiempo infinito ( ) y el objetivo es maximizar la suma de la recompensa (la recompensa se multiplica por ). Esto generalmente se llama un problema MDP con un criterio de recompensa con descuento de horizonte infinito .T→∞discountedRβn
El problema se llama descontado porque . Si no se tratara de un problema con descuento la suma no convergería. Todas las políticas que han obtenido en promedio una recompensa positiva en cada instante de tiempo sumarían hasta el infinito. Sería un criterio de recompensa de suma de horizonte infinito , y no es un buen criterio de optimización.β<1β=1
Aquí hay un ejemplo de juguete para mostrarle lo que quiero decir:
Suponga que solo hay dos acciones posibles y que la función de recompensa es igual a si y si (la recompensa no depende del estado).a=0,1R1a=10a=0
Está claro que la política que obtiene más recompensa es tomar siempre la acción y nunca la acción . Llamaré a esta política . Compararé con otra política que tome la acción con una probabilidad pequeña , y la acción caso contrario.a=1a=0π∗π∗π′a=1α<<1a=0
En el horizonte infinito, la ecuación de criterios de recompensa con descuento (1) se convierte en (la suma de una serie geométrica) para la política mientras que para la política ecuación (1) se convierte en . Como , decimos que es una política mejor que . En realidad, es la política óptima.11−βπ∗π′α1−β11−β>α1−βπ∗π′π∗
En el criterio de recompensa de suma de horizonte infinito ( ) la ecuación (1) no converge para ninguna de las políticas (suma hasta el infinito). Entonces, mientras que la política alcanza mayores recompensas que ambas políticas son iguales de acuerdo con este criterio. Esa es una razón por la cual el criterio de recompensa de suma de horizonte infinito no es útil.β=1ππ′
Como mencioné antes, hace el truco de hacer que la suma en la ecuación (1) converja.β<1
Otros criterios de optimización
Existen otros criterios de optimización que no imponen que :β<1
El criterio de horizonte finito es que el objetivo es maximizar la recompensa con descuento hasta el horizonte temporalT
maxπ:S(n)→aiE{∑n=1TβnRxi(S(n),S(n+1))},
para y finito.β≤1T
En el criterio de recompensa promedio de horizonte infinito, el objetivo es
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
Nota final
Dependiendo de los criterios de optimización, se usaría un algoritmo diferente para encontrar la política óptima. Por ejemplo, las políticas óptimas de los problemas de horizonte finito dependerían tanto del estado como del instante de tiempo real. La mayoría de los algoritmos de aprendizaje de refuerzo (como SARSA o Q-learning) convergen con la política óptima solo para los criterios de recompensa de horizonte infinito con descuento (lo mismo ocurre con los algoritmos de programación dinámica). Para los criterios de recompensa promedio, no se ha demostrado que ningún algoritmo converja con la política óptima, sin embargo, se puede utilizar el aprendizaje en R que tiene un buen rendimiento, aunque no una buena convergencia teórica.