Estadísticas y Big Data multiarmed-bandit

3

El algoritmo de bandido más conocido es el límite superior de confianza (UCB) que popularizó esta clase de algoritmos. Desde entonces supongo que ahora hay mejores algoritmos. ¿Cuál es el mejor algoritmo actual (en términos de rendimiento empírico o límites teóricos)? ¿Es este algoritmo óptimo en algún sentido?

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

4

¿En qué tipo de situaciones de la vida real podemos usar un algoritmo de bandido multi-brazo?

Los bandidos de brazos múltiples funcionan bien en situaciones en las que tienes opciones y no estás seguro de cuál maximizará tu bienestar. Puede usar el algoritmo para algunas situaciones de la vida real. Como ejemplo, el aprendizaje puede ser un buen campo: Si un niño está aprendiendo carpintería y …

15 algorithms reinforcement-learning multiarmed-bandit

1

Funciones de costo para bandidos contextuales

Estoy usando Wongpal Wabbit para resolver un problema de bandido contextual . Estoy mostrando anuncios a los usuarios y tengo bastante información sobre el contexto en el que se muestra el anuncio (por ejemplo, quién es el usuario, en qué sitio se encuentra, etc.). Este parece ser un problema de …

14 multinomial gradient-descent multiarmed-bandit vowpal-wabbit contextual-bandit

2

¿Qué es Thompson Sampling en términos simples?

No puedo entender Thompson Sampling y cómo funciona. Estaba leyendo sobre Multi Arm Bandit y después de leer el algoritmo de confianza superior, muchos textos sugirieron que Thompson Sampling funciona mejor que UCB. ¿Qué es Thompson Sampling, en términos simples o simples? No dude en proporcionar artículos de referencia para …

14 machine-learning definition multiarmed-bandit

1

Algoritmo óptimo para resolver problemas de bandidos armados

He leído sobre varios algoritmos para resolver problemas de bandidos armados n como -greedy, softmax y UCB1, pero tengo algunos problemas para determinar qué enfoque es mejor para minimizar el arrepentimiento.ϵϵ\epsilon ¿Existe un algoritmo óptimo conocido para resolver el problema del bandido armado n? ¿Existe una elección de algoritmo que …

13 machine-learning reinforcement-learning multiarmed-bandit

1

Bandido multi armado para la distribución general de recompensas

Estoy trabajando en un problema de bandidos multibrazos en el que no tenemos información sobre la distribución de recompensas. He encontrado muchos documentos que garantizan límites de arrepentimiento para una distribución con límite conocido y para distribuciones generales con soporte en [0,1]. Me gustaría saber si hay una manera de …

11 references multiarmed-bandit

2

Confianza superior en el aprendizaje automático

Encontré la fórmula para obtener los límites superiores de confianza en el problema del bandido armado k: clnNini−−−−−√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} donde es la cantidad de muestras que tenemos para este bandido particular y es la cantidad total de muestras que tenemos de todos los bandidos. El mismo algoritmo se usa en …

8 machine-learning mathematical-statistics confidence-interval reinforcement-learning multiarmed-bandit

Preguntas etiquetadas con multiarmed-bandit