¿Por qué se eligió la letra Q en Q-learning?


17

¿Por qué se eligió la letra Q en nombre de Q-learning?

La mayoría de las letras se eligen como abreviatura, como π representando política y v representa valor. Pero no creo que Q sea una abreviatura de ninguna palabra.


1
En mi comprensión metafórica, Q es una función que asocia una cantidad (llamada recompensa, costo o cualquier otra cosa que se esté optimizando) para una acción en un estado dado.
knk

1
@sycorax, la pregunta original enmarcada implicaba una comprensión del aprendizaje Q y, para ofrecer una explicación, ayudaría a agregar contexto. El OP se perdería con cualquier explicación sin establecer una conexión a tierra.
knk

¿Ayuda la metafórica Q = Cantidad? Lo considero como una cuantificación de los estados de acción dados
knk

Respuestas:


35

Lamento decepcionar a todos, pero Q no representa nada :)

Q-learning fue propuesto por Watkins en su tesis doctoral en 1989, ver p.96. La Q en la ecuación de esa página se actualiza de cierta manera en cada paso. La Q es el retorno esperado de la acción en un estado dado, consulte la definición de Q en la p.46. El retorno es en un sentido económico o de teoría de juegos, es decir, recompensas ponderadas por probabilidad con descuento, no un término informático como el retorno de una función.

Observe cómo ya usó P para probabilidad y R para recompensa, por lo que agarró Q para obtener el rendimiento. Eso es. No hay un significado más profundo para elegir una letra Q.


3
No tiene un significado más profundo, pero es un significado (que Q encaja con P y R en el alfabeto) y representa algo .
Sextus Empiricus

2
@MartijnWeterings No es un significado en absoluto. Es una elección de letra puramente sintáctica, sin consideraciones semánticas de ningún tipo.
David Richerby

Claro, puede haber pocas consideraciones semánticas (y esto podría debatirse porque las diferencias entre letras latinas o griegas, letras en diferentes posiciones del alfabeto o mayúsculas versus minúsculas pueden formar un área gris entre sintáctica y semántica). Considero la elección de Q como 'significativa' porque la forma de la letra (que es algo arbitraria) expresa en cierta medida el significado de la variable / parámetro. El significado se relaciona con la elección de la letra. No habría habido una buena elección cuando se hubieran elegido u o v, o i, j, k o x, y, z o . α,β,γ
Sextus Empiricus

@MartijnWeterings, Q también suena como una cola , lo que también trae connotaciones algo relevantes
Aksakal

@ Aksakal, eso podría haber estado reforzando el uso de Q. Pero, no creo que sea fuerte. No sé mucho sobre este tema, pero en una visión general rápida de esa tesis me parece muy plausible que la letra se haya utilizado para una cantidad como i R i P i o i V i P i . Finalmente, se le dio "algún nombre" como "valor de acción", pero las letras utilizadas en esa tesis parecen adherirse mucho más al alfabeto. Por ejemplo, f g h para las funciones x y para las variables V UQiRiPiiViPif g hx yV U para la función de valor y es aproximada. etc.
Sextus Empiricus

0

La razón por la que Q-Learning se llama así porque usa valores Q para formar sus estimaciones. La regla de aprendizaje habitual es, y debe quedar claro por qué se llama Q-Learning.Q(st,at)Q(st,at)+α(rt+γ×maxaQ(st+1,a)Q(st,at))

Pero la pregunta real en mi opinión es por qué Q-Learning se llama así. Aunque no parece haber una respuesta satisfactoria, este enlace menciona que Andrew Barto , uno de los fundadores de Modern Reinforcement Learning, cree que significa Calidad, llamada así porque caracteriza cuán bueno sería el resultado de tirar de un brazo ser.Q


2
Lea esa tesis y dígame cómo la "calidad" tiene sentido en el contexto del retorno esperado
Aksakal

Aunque estoy de acuerdo con usted, la tesis fue escrita después de que Watkins consultó a Andy sobre varias cosas. Andy puede haber tenido una mejor idea de lo que crees que tiene.
Ameet Deshpande

La calidad ni siquiera existe como un concepto distinto en el aprendizaje. Puede usar la palabra en su sentido habitual del inglés, por supuesto. El rendimiento esperado, por otro lado, está muy bien definido en la teoría de juegos, no hay necesidad de diluirlo al agregar conceptos vagos como la calidad. No está maximizando la calidad, está maximizando las recompensas con descuento bajo la medida de probabilidad adecuada. Si desea ser un poco más amplio, puede maximizar la utilidad.
Aksakal
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.