¡Lo intentaré y espero que les guste! Hay algunas fórmulas a continuación que pueden asustarte. No lo espero, porque haré todo lo posible para explicarlos de la manera más simple que pueda.
Estas son las dos fórmulas:
- La probabilidad: PAG( r | θ , a , x )
- Y la posterior: PAG( θ | D )
TL; DR
Thompson Sampling te permite
- Elija un parámetro de modelo aleatorio de todos los parámetros de modelo que considere posibles.
- Actúa una vez de acuerdo con ese parámetro del modelo en particular.
- Observe la recompensa que obtiene con ese parámetro de modelo en particular.
- Aprenda de esta nueva experiencia y actualice su creencia sobre los posibles parámetros del modelo.
¿¿Probabilidad??
La probabilidad es algo que define la probabilidad de que las cosas sean. En este caso, la probabilidad dice cuán probable es que obtengamos una recompensar si juega acción un en contexto X. Por ejemplo, si está lloviendo (¡contexto!) Y tomas un paraguas (¡acción!) Te quedas seco (¡recompensa! :)). Por otro lado, si no está lloviendo (¡contexto!) Y tomas un paraguas (¡acción!) Tienes que llevar un peso extra (¡recompensa negativa! :(). Así que la probabilidad es lo central que quieres entender. Si sabe todo sobre la probabilidad, es fácil actuar de manera óptima.
¿Qué hay de ese círculo extraño?
Como habrás notado, no escribí nada sobre ese extraño círculo θque se llama theta. (Los matemáticos tienen la costumbre de indicar qué partes son las más difíciles dándoles letras griegas, lo que hace que sea aún más difícil de entender). Estaθrepresenta el parámetro del modelo. Estos parámetros se utilizan cuando la relación entre el contexto + acciones y la recompensa es más difícil. Por ejemplo, un parámetro modelo podría ser cuánto baja su recompensa si cae una lluvia de 1 mm sobre su cabeza. Otro parámetro del modelo podría indicar cuánto disminuye su recompensa si toma un paraguas. Acabo de decir que la probabilidad es lo central que quieres entender; y centrales para la probabilidad son los parámetros del modelo. Si conoces los parámetros del modeloθ, ya sabes cómo se relacionan las acciones de contexto + con la recompensa y es fácil actuar de manera óptima.
Entonces, ¿cómo podemos conocer estos parámetros del modelo de manera que pueda obtener la máxima recompensa?
Esa es la pregunta esencial para el problema de los bandidos multi-armados. En realidad, tiene dos partes. Desea conocer los parámetros del modelo con precisión mediante la exploración de todo tipo de acciones en diferentes contextos. Pero si ya sabe qué acción es buena para un contexto específico, desea explotar esa acción y obtener la mayor recompensa posible. Entonces, si no está seguro acerca de los parámetros de su modeloθEs posible que desee hacer un poco de exploración adicional. Si está bastante seguro de los parámetros de nuestro modelo.θ, también está bastante seguro de qué acción tomar. Esto se conoce como el intercambio de exploración versus explotación.
No has dicho nada sobre este posterior
La clave de este comportamiento óptimo es su (des) certeza sobre los parámetros del modelo θ. Y la parte posterior dice exactamente eso: dadas todas las recompensas anteriores que obtuvimos de acciones anteriores en contextos anteriores, ¿cuánto sabes sobreθ. Por ejemplo, si nunca has estado afuera, no sabes lo infeliz que eres cuando cae la lluvia sobre tu cabeza. En otras palabras, no está seguro acerca del parámetro del modelo de infelicidad cuando llueve sobre la cabeza. Si a veces ha estado lloviendo, con y sin paraguas, puede comenzar a aprender algo sobre este oscuro parámetro del modelo.
Ahora, ¿qué sugiere hacer Thomson Sampling con todas estas incertidumbres?
Thomson Sampling sugiere algo muy simple: simplemente elija un parámetro de modelo aleatorio de su posterior, realice una acción y observe lo que sucede. Por ejemplo, cuando nunca antes has estado afuera, el parámetro infelicidad cuando llueve en la cabeza puede ser cualquier cosa. Así que solo elegimos uno, asumimos que nos ponemos realmente infelices cuando llueve sobre nuestra cabeza. Vemos que está lloviendo (contexto), así que tomamos un paraguas (acción) porque nuestro parámetro modelo nos dice que así es como podemos obtener la máxima recompensa. Y, de hecho, observa que se pone un poco gruñón al caminar bajo la lluvia con un paraguas, pero no realmente infeliz. Aprendemos de esto que rain + umbrella es gruñón. La próxima vez que llueva, volverás a tener una creencia aleatoria sobre lo que sucede cuando la lluvia cae sobre tu cabeza. Esta vez puede ser que no te moleste en absoluto. Sin embargo, una vez que estás a medio camino de tu destino, te estás escurriendo y aprendes que la lluvia sin paraguas es realmente muy mala. Esto reduce su incertidumbre acerca de la infelicidad cuando llueve sobre la cabeza, porque ahora sabe que probablemente sea alta.
¡Esto suena muy simple!
Sí, no es tan complejo. La parte difícil es el muestreo de un parámetro modelo posterior. Obtener y mantener una distribución sobre todos los parámetros de su modelo, que también es apropiado para su problema específico, es difícil. Pero ... definitivamente es factible :).