SARSA y Q Learning son algoritmos de aprendizaje de refuerzo que funcionan de manera similar. La diferencia más notable es que SARSA está en la política, mientras que Q Learning está fuera de la política. Las reglas de actualización son las siguientes:
Q Aprendizaje:
SARSA:
donde y son el estado, la acción y la recompensa en el tiempo de paso y es un factor de descuento.
En su mayoría se ven iguales, excepto que en SARSA tomamos medidas reales y en Q Learning tomamos las medidas con la mayor recompensa.
¿Existen escenarios teóricos o prácticos en los que uno debería preferir uno sobre el otro? Puedo ver que tomar el máximo en Q Learning puede ser costoso y aún más en espacios de acción continua. ¿Pero hay algo más?