¿Por qué se eligió la letra Q en nombre de Q-learning?
La mayoría de las letras se eligen como abreviatura, como representando política y representa valor. Pero no creo que Q sea una abreviatura de ninguna palabra.
¿Por qué se eligió la letra Q en nombre de Q-learning?
La mayoría de las letras se eligen como abreviatura, como representando política y representa valor. Pero no creo que Q sea una abreviatura de ninguna palabra.
Respuestas:
Lamento decepcionar a todos, pero Q no representa nada :)
Q-learning fue propuesto por Watkins en su tesis doctoral en 1989, ver p.96. La Q en la ecuación de esa página se actualiza de cierta manera en cada paso. La Q es el retorno esperado de la acción en un estado dado, consulte la definición de Q en la p.46. El retorno es en un sentido económico o de teoría de juegos, es decir, recompensas ponderadas por probabilidad con descuento, no un término informático como el retorno de una función.
Observe cómo ya usó P para probabilidad y R para recompensa, por lo que agarró Q para obtener el rendimiento. Eso es. No hay un significado más profundo para elegir una letra Q.
La razón por la que Q-Learning se llama así porque usa valores Q para formar sus estimaciones. La regla de aprendizaje habitual es, y debe quedar claro por qué se llama Q-Learning.
Pero la pregunta real en mi opinión es por qué Q-Learning se llama así. Aunque no parece haber una respuesta satisfactoria, este enlace menciona que Andrew Barto , uno de los fundadores de Modern Reinforcement Learning, cree que significa Calidad, llamada así porque caracteriza cuán bueno sería el resultado de tirar de un brazo ser.