El artículo de AlphaGo Zero de Nature , "Dominando el juego de ir sin conocimiento humano", afirma cuatro grandes diferencias con respecto a la versión anterior:
- Solo autoaprendizaje (no entrenado en juegos humanos)
- Usando solo el tablero y las piedras como entrada (sin características escritas a mano).
- Usar una red neuronal única para políticas y valores
- Un nuevo algoritmo de búsqueda de árbol que utiliza esta red combinada de política / valor para guiar dónde buscar buenos movimientos.
Los puntos (1) y (2) no son nuevos en el aprendizaje por refuerzo, pero mejoran en el software AlphaGo anterior como se indica en los comentarios a su pregunta. Simplemente significa que ahora están utilizando aprendizaje de refuerzo puro a partir de pesos inicializados aleatoriamente. Esto está habilitado por algoritmos de aprendizaje mejores y más rápidos.
Su afirmación aquí es "Nuestra contribución principal es demostrar que el rendimiento sobrehumano se puede lograr sin el conocimiento del dominio humano". (pág. 22).
Los puntos (3) y (4) son nuevos en el sentido de que su algoritmo es más simple y más general que su enfoque anterior. También mencionan que es una mejora en el trabajo previo de Guo et al.
Unificar la red de política / valor (3) les permite implementar una variante más eficiente de la búsqueda del árbol de Montecarlo para buscar buenos movimientos y usar simultáneamente el árbol de búsqueda para entrenar la red más rápido (4). Esto es muy poderoso.
Además, describen una serie de detalles de implementación interesantes, como el procesamiento por lotes y la reutilización de estructuras de datos para optimizar la búsqueda de nuevos movimientos.
El efecto es que necesita menos potencia informática, se ejecuta en 4 TPU en lugar de 176 GPU y 48 TPU para versiones anteriores de su software.
Esto definitivamente lo hace "novedoso" en el contexto del software Go. Creo que (3) y (4) también son "novedosos" en un contexto más amplio y serán aplicables en otros dominios de refuerzo de aprendizaje como, por ejemplo, la robótica.