Algoritmo óptimo para resolver problemas de bandidos armados

He leído sobre varios algoritmos para resolver problemas de bandidos armados n como -greedy, softmax y UCB1, pero tengo algunos problemas para determinar qué enfoque es mejor para minimizar el arrepentimiento. $\epsilon$

¿Existe un algoritmo óptimo conocido para resolver el problema del bandido armado n? ¿Existe una elección de algoritmo que parece funcionar mejor en la práctica?

machine-learning reinforcement-learning multiarmed-bandit

— JS01
fuente

Presumiblemente no hay una solución óptima reconocida, ya que de lo contrario la página de Wikipedia lo diría y no habría una página

— Henry

¿No debería ser esto en informática teórica SE?

@mbq ya que el aprendizaje por refuerzo es una rama del aprendizaje automático, no lo creo;)

— steffen

@steffen Claro, el nombre parecía "tcsy".

@mbq no lo entiendo. ¿Qué significa "tscy"?

— steffen

Aquí hay dos encuestas que he encontrado recientemente. Todavía no los he leído, pero los resúmenes suenan prometedores.

Joann`s Vermorel y Mehryar Mohri: Algoritmos de bandido multi-armados y evaluación empírica (2005)

Del resumen:

El problema del bandido multi-armado para un jugador es decidir qué brazo de una máquina tragamonedas K debe tirar para maximizar su recompensa total en una serie de pruebas. Muchos problemas de aprendizaje y optimización del mundo real pueden modelarse de esta manera. Se han propuesto varias estrategias o algoritmos como solución a este problema en las últimas dos décadas, pero, hasta donde sabemos, no ha habido una evaluación común de estos algoritmos.

Volodymyr Kuleshov y Doina Precup: Algoritmos para el problema de los bandidos multi-armados (2000) Del resumen:

En segundo lugar, el rendimiento de la mayoría de los algoritmos varía dramáticamente con los parámetros del problema del bandido. Nuestro estudio identifica para cada algoritmo la configuración donde funciona bien y la configuración donde funciona mal.

— steffen
fuente