Sin embargo, ambos enfoques me parecen idénticos, es decir, predecir la recompensa máxima para una acción (Q-learning) es equivalente a predecir la probabilidad de realizar la acción directamente (PG).
Ambos métodos son impulsados teóricamente por la construcción del Proceso de Decisión de Markov , y como resultado usan notación y conceptos similares. Además, en entornos solucionables simples, debe esperar que ambos métodos den como resultado las mismas políticas óptimas, o al menos equivalentes.
Sin embargo, en realidad son diferentes internamente. Las diferencias más fundamentales entre los enfoques radican en cómo abordan la selección de acciones, tanto durante el aprendizaje como en el producto (la política aprendida). En Q-learning, el objetivo es aprender una única acción determinista a partir de un conjunto discreto de acciones al encontrar el valor máximo. Con gradientes de políticas y otras búsquedas directas de políticas, el objetivo es aprender un mapa del estado a la acción, que puede ser estocástico, y funciona en espacios de acción continua.
Como resultado, los métodos de gradiente de políticas pueden resolver problemas que los métodos basados en valores no pueden:
Amplio y continuo espacio de acción. Sin embargo, con los métodos basados en valores, esto aún puede aproximarse con discretización, y esta no es una mala elección, ya que la función de mapeo en el gradiente de políticas tiene que ser algún tipo de aproximación en la práctica.
Políticas estocásticas. Un método basado en el valor no puede resolver un entorno donde la política óptima es estocástica y requiere probabilidades específicas, como Tijera / Papel / Piedra. Esto se debe a que no hay parámetros entrenables en el aprendizaje Q que controlen las probabilidades de acción, la formulación del problema en el aprendizaje TD supone que un agente determinista puede ser óptimo.
Sin embargo, los métodos basados en valores como Q-learning también tienen algunas ventajas:
p ( a ∣ s , θ )θ
Velocidad. Los métodos de aprendizaje de TD que arrancan son a menudo mucho más rápidos para aprender una política que los métodos que deben tomar muestras del entorno para evaluar el progreso.
Hay otras razones por las que puede interesarle usar uno u otro enfoque:
Es posible que desee conocer el rendimiento previsto mientras se ejecuta el proceso, para ayudar a otros procesos de planificación asociados con el agente.
La representación estatal del problema se presta más fácilmente a una función de valor o una función de política. Una función de valor puede tener una relación muy simple con el estado y la función de política es muy compleja y difícil de aprender, o viceversa .
Algunos solucionadores de RL de última generación en realidad usan ambos enfoques juntos, como Actor-Critic. Esto combina fortalezas de valor y métodos de gradiente de políticas.