Conferencia / Libro sobre AlphaGo / AlphaZero


8

Estoy muy interesado en cómo AlphaGo resp. AlphaZero funciona. Me parece que los Google Papers relacionados son muy densos y no fáciles de leer.

¿Hay algún libro de texto o conferencia que explique a nivel técnico cómo funciona todo? ¿Comenzando con redes neuronales / aprendizaje profundo, Monte Carlo Tree Search hasta llegar a AlphaGo / AlphaZero?

Tengo una maestría en informática, pero nunca trabajé con inteligencia artificial / aprendizaje automático.

En este momento, me parece que toda la información relacionada está dispersa, y no tengo tiempo para escuchar conferencias (en línea) sobre el aprendizaje automático que contienen tal vez solo el 10% de lo que es relevante para entender AlphaGo ...

¿Alguien me puede apuntar en la dirección correcta?



2
gracias por el enlace, pero esa presentación es realmente muy superficial
ndbd

Respuestas:


10

EDITAR

El enlace de @unutbu en el comentario es una buena lectura introductoria.


La comprensión sólida de AlphaZero probablemente requiera un grado cuantitativo (PhD?). ¿Estás pidiendo un curso intensivo en AlphaZero?

Tenga en cuenta que a menos que invierta una cantidad significativa de su tiempo, nada de lo que diga funcionará. No hay libro que pueda cubrir todo. Tendrás que trabajar muy duro.

Vamos a intentarlo Curso intensivo para AlphaZero.

1. Comprensión básica en el aprendizaje automático

Innumerable cantidad de libros. Pero si no tiene tiempo, le recomendaría los cursos de aprendizaje automático del profesor Andrew Ng en Coursera.

Sus palabras clave: conjuntos de entrenamiento, conjuntos de prueba, descenso de gradiente estocástico, tasa de aprendizaje, GPU, función de costo, entropía cruzada .

2. Redes neutrales profundas

Necesita comprender sobre las redes neuronales. Recomendaría el libro de aprendizaje profundo del profesor Ian Goodfellow si habla en serio. Si no tiene tiempo, siga nuevamente el curso en línea del profesor Andrew Ng en Coursera. No tienes que ir a todos los capítulos (¡pero deberías!).

YouTube tiene muchas introducciones rápidas a las redes neuronales, pruébelas.

Sus palabras clave: neurona, capas, pesos, sesgo, mini-lote, activación .

3. Búsqueda de árboles en Monte Carlo

Debes entender qué es Monte Carlo. Los libros sobre Monte Carlo están en todas partes en Amazon. Lea la wikipedia sobre MCTS si no tiene tiempo.

Sus palabras clave: muestreo, expansión, simulación, despliegues, retropropagación .

3. Aprendizaje de refuerzo

Sus palabras clave: gradiente de política, descenso de gradiente, tasa de aprendizaje

5. Representación en el tablero de ajedrez

El papel en sí es más simple. El modelo codifica el estado de la placa (por ejemplo, piezas) como una serie de valores binarios de codificación en caliente.

6. MCTS vs alfa-beta

ingrese la descripción de la imagen aquí


44
Muchas gracias por la respuesta detallada. Por lo tanto, parece que desafortunadamente no hay una guía directa. Mi punto es que, por supuesto, como experto en CS sé sobre redes neuronales, pero no sobre el tipo específico de redes profundas que se usaron en Alpha *. A grandes rasgos, conozco el MCTS presentado por Bernd Brügmann, pero no el tipo específico de adaptación para Alpha *. Lo mismo para el aprendizaje por refuerzo. Por ejemplo, el curso de Andrew Ng sobre ML es muy amplio y cubre cosas como PCA / LDA, que hasta donde yo sé es completamente irrelevante aquí. Pero supongo que tengo que resolverlo yo mismo entonces ;-)
ndbd

7

No tengo suficiente reputación para comentar, pero AlphaGo Zero Explained In One Diagram es bastante bueno.

También me gusta mucho este tutorial.

Tenga en cuenta que el primer enlace no describe cuándo crear (expandir) nodos. Esa parte puede ser un poco confusa. Este enlace puede ayudar.


Eso es bueno. Me gusta. +1.
SmallChess

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.