Estoy trabajando en un problema de bandidos multibrazos en el que no tenemos información sobre la distribución de recompensas.
He encontrado muchos documentos que garantizan límites de arrepentimiento para una distribución con límite conocido y para distribuciones generales con soporte en [0,1].
Me gustaría saber si hay una manera de desempeñarse bien en un entorno donde la distribución de recompensas no tiene ninguna garantía sobre su soporte. Estoy tratando de calcular un límite de tolerancia no paramétrico y estoy usando ese número para escalar la distribución de recompensas para poder usar el algoritmo 2 especificado en este documento ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ) ¿Alguien piensa que este enfoque funcionará?
Si no, ¿alguien puede señalarme el lugar correcto?
¡Gracias un montón!