En los documentos AlphaGo Zero y AlphaZero de DeepMind , describen la adición de ruido Dirichlet a las probabilidades previas de acciones desde el nodo raíz (estado del tablero) en Monte Carlo Tree Search:
Se logra una exploración adicional al agregar ruido de Dirichlet a las probabilidades anteriores en el nodo raíz , específicamente , donde y ; Este ruido garantiza que se puedan probar todos los movimientos, pero la búsqueda aún puede anular los movimientos incorrectos. P ( s , a ) = ( 1 - ε ) p a + ε η a η ∼ Dir ( 0.03 ) ε = 0.25
(AlphaGo Zero)
Y:
El ruido de Dirichlet se agregó a las probabilidades anteriores en el nodo raíz; esto se escaló en proporción inversa al número aproximado de movimientos legales en una posición típica, a un valor de para ajedrez, shogi y Go respectivamente.α = { 0.3 ,
(AlphaZero)
Dos cosas que no entiendo:
P(s, a)
es un vector dimensional. ¿Es abreviatura para la distribución de Dirichlet con parámetros, cada uno con valor ?Dir ( α ) n αSolo me he encontrado con Dirichlet como el conjugado anterior de la distribución multinomial. ¿Por qué fue recogido aquí?
Para el contexto, P(s, a)
es solo un componente del cálculo PUCT (árbol de confianza superior polinómico, una variante en los límites de confianza superiores) para un estado / acción dado. Se escala por una constante y una métrica de cuántas veces se seleccionó la acción dada entre sus hermanos durante MCTS, y se agregó al valor de acción estimado Q(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
.- .