UCB es de hecho casi óptimo en el caso estocástico (hasta un factor T log para un juego de ronda T), y hasta una brecha en la desigualdad de Pinsker en un sentido más dependiente del problema. El artículo reciente de Audibert y Bubeck elimina esta dependencia de registro en el peor de los casos, pero tiene un límite peor en el caso favorable cuando diferentes brazos tienen recompensas bien separadas.
En general, UCB es un candidato de una familia más grande de algoritmos. En cualquier momento del juego, puedes ver todos los brazos que no están "descalificados", es decir, cuyo límite de confianza superior no es menor que el límite de confianza inferior de algún brazo. La selección basada en cualquier distribución de tales armas calificadas constituye una estrategia válida y obtiene un arrepentimiento similar hasta las constantes.
Empíricamente, no creo que haya habido una evaluación significativa de muchas estrategias diferentes, pero creo que UCB a menudo es bastante bueno.
La mayor parte de la investigación más reciente se ha centrado en extender los problemas de los bandidos más allá del simple entorno armado K con recompensas estocásticas, a espacios de acción muy grandes (o infinitos), con o sin información secundaria, y bajo retroalimentación estocástica o adversaria. También se ha trabajado en escenarios donde los criterios de rendimiento son diferentes (como la identificación del mejor brazo únicamente).