3
¿El mejor algoritmo de bandido?
El algoritmo de bandido más conocido es el límite superior de confianza (UCB) que popularizó esta clase de algoritmos. Desde entonces supongo que ahora hay mejores algoritmos. ¿Cuál es el mejor algoritmo actual (en términos de rendimiento empírico o límites teóricos)? ¿Es este algoritmo óptimo en algún sentido?