Parece que la red de políticas determina una distribución de probabilidad sobre los posibles movimientos cuando está en estado de juego . Cuando el programa busca en el árbol del juego, lo hace de forma aleatoria, y determina cómo realiza esta búsqueda. La esperanza es que esta función "guíe" al programa a buenos movimientos que un jugador fuerte probablemente haga. Esto tiene sentido porque cuando buscas en el árbol del juego, las ramas que comienzan con errores son menos relevantes al evaluar la posición actual del tablero contra un oponente inteligente.p(a∣s)asp
Cuando dicen que la política de implementación (creo que tomaron prestado el término "implementación" del backgammon) es una función softmax lineal, se refieren a una generalización de la función sigmoidea utilizada en la regresión logística. Esta función toma la forma
eβTix∑kj=1eβTjx
donde es un vector que es función de la posición actual del tablero (según el documento, el softmax lineal solo se usa en el último paso de la red de políticas) y es un vector de pesos que juntos determinan la probabilidad de que la política La red elegirá la acción .xβiai