Aquí hay dos encuestas que he encontrado recientemente. Todavía no los he leído, pero los resúmenes suenan prometedores.
Joann`s Vermorel y Mehryar Mohri: Algoritmos de bandido multi-armados y evaluación empírica (2005)
Del resumen:
El problema del bandido multi-armado para un jugador es decidir qué brazo de una máquina tragamonedas K debe tirar para maximizar su recompensa total en una serie de pruebas. Muchos problemas de aprendizaje y optimización del mundo real pueden modelarse de esta manera. Se han propuesto varias estrategias o algoritmos como solución a este problema en las últimas dos décadas, pero, hasta donde sabemos, no ha habido una evaluación común de estos algoritmos.
Volodymyr Kuleshov y Doina Precup: Algoritmos para el problema de los bandidos multi-armados (2000) Del resumen:
En segundo lugar, el rendimiento de la mayoría de los algoritmos varía dramáticamente con los parámetros del problema del bandido. Nuestro estudio identifica para cada algoritmo la configuración donde funciona bien y la configuración donde funciona mal.