¿Qué es el "nuevo algoritmo de aprendizaje de refuerzo" en AlphaGo Zero?

Por alguna razón, AlphaGo Zero no recibe tanta publicidad como el AlphaGo original, a pesar de sus increíbles resultados. Comenzando desde cero, ya ha superado a AlphaGo Master y ha superado muchos otros puntos de referencia. Aún más increíble, se hace esto en 40 días. Google lo nombra como "posiblemente el mejor jugador de Go del mundo" .

DeepMind afirma que esta es una "forma novedosa de aprendizaje por refuerzo". ¿Es esta técnica realmente novedosa? ¿O ha habido otros momentos en que se utilizó esta técnica y, de ser así, cuáles fueron sus resultados? Creo que los requisitos de los que estoy hablando son 1) no intervención humana y 2) no juego histórico, pero estos son flexibles.

Esta parece ser una pregunta similar, pero todas las respuestas parecen comenzar desde el supuesto de que AlphaGo Zero es el primero de su tipo.

machine-learning deep-learning

— Dubukay
fuente

El aprendizaje por refuerzo no es nuevo. ¿Qué técnicas Google afirmó que son las primeras?

— HelloWorld

Hay una cita al respecto en el sitio web vinculado, y en el artículo usan la frase "La red neuronal en AlphaGo Zero está entrenada a partir de juegos de auto-juego mediante un nuevo algoritmo de aprendizaje de refuerzo".

— Dubukay

El juego propio definitivamente no es nuevo. Existió antes de Google. Hay detalles en su algoritmo que los hacen "novedosos". Quizás alguien más pueda responder.

— HolaMundo

Entiendo eso, supongo que estoy tratando de entender qué hizo que su enfoque fuera tan increíblemente bueno, y si eso es algo que deberíamos esperar ver en otras áreas. ¿Es una nueva filosofía o simplemente un código realmente bueno?

— Dubukay

Encontré una copia del documento aquí: nature.com/articles/… (incluye token de acceso compartido, que es del blog que lo vincula, por lo que es AFAICS público legítimo). Incluso después de leer la descripción, aunque es difícil elegir la novedad real: todas las ideas individuales parecen ser técnicas de RL / juego preexistentes, puede ser una combinación específica de ellas lo que es novedoso

— Neil Slater,

El artículo de AlphaGo Zero de Nature , "Dominando el juego de ir sin conocimiento humano", afirma cuatro grandes diferencias con respecto a la versión anterior:

Solo autoaprendizaje (no entrenado en juegos humanos)
Usando solo el tablero y las piedras como entrada (sin características escritas a mano).
Usar una red neuronal única para políticas y valores
Un nuevo algoritmo de búsqueda de árbol que utiliza esta red combinada de política / valor para guiar dónde buscar buenos movimientos.

Los puntos (1) y (2) no son nuevos en el aprendizaje por refuerzo, pero mejoran en el software AlphaGo anterior como se indica en los comentarios a su pregunta. Simplemente significa que ahora están utilizando aprendizaje de refuerzo puro a partir de pesos inicializados aleatoriamente. Esto está habilitado por algoritmos de aprendizaje mejores y más rápidos.

Su afirmación aquí es "Nuestra contribución principal es demostrar que el rendimiento sobrehumano se puede lograr sin el conocimiento del dominio humano". (pág. 22).

Los puntos (3) y (4) son nuevos en el sentido de que su algoritmo es más simple y más general que su enfoque anterior. También mencionan que es una mejora en el trabajo previo de Guo et al.

Unificar la red de política / valor (3) les permite implementar una variante más eficiente de la búsqueda del árbol de Montecarlo para buscar buenos movimientos y usar simultáneamente el árbol de búsqueda para entrenar la red más rápido (4). Esto es muy poderoso.

Además, describen una serie de detalles de implementación interesantes, como el procesamiento por lotes y la reutilización de estructuras de datos para optimizar la búsqueda de nuevos movimientos.

El efecto es que necesita menos potencia informática, se ejecuta en 4 TPU en lugar de 176 GPU y 48 TPU para versiones anteriores de su software.

Esto definitivamente lo hace "novedoso" en el contexto del software Go. Creo que (3) y (4) también son "novedosos" en un contexto más amplio y serán aplicables en otros dominios de refuerzo de aprendizaje como, por ejemplo, la robótica.

— mjul
fuente

Creo que se alude a (4) en las conferencias de David Silver - conferencia 10 sobre juegos clásicos - en muchos casos existentes, el MCTS está guiado por el ML ya entrenado. En el caso de AlphaGo Zero, esto se da vuelta y el resultado del MCTS se usa para establecer los objetivos de aprendizaje para el ML. Sin embargo, lo que me hace preguntarme si es realmente "novedoso" es la posibilidad de hacer exactamente lo que se menciona en la conferencia. . .

— Neil Slater