Encontré la fórmula para obtener los límites superiores de confianza en el problema del bandido armado k:
donde es la cantidad de muestras que tenemos para este bandido particular y es la cantidad total de muestras que tenemos de todos los bandidos. El mismo algoritmo se usa en la Búsqueda de árbol de Monte Carlo también para obtener el límite de confianza superior.
Entiendo muy claramente qué es un límite de confianza superior, pero lo que no entiendo es de dónde viene esta fórmula. He intentado buscar en línea en varios lugares, pero no pude encontrar una explicación clara de cómo se deriva esta fórmula. ¿Alguien puede explicar de dónde viene esta fórmula? Suponga que no tengo una gran experiencia en estadísticas.