EDITAR
El enlace de @unutbu en el comentario es una buena lectura introductoria.
La comprensión sólida de AlphaZero probablemente requiera un grado cuantitativo (PhD?). ¿Estás pidiendo un curso intensivo en AlphaZero?
Tenga en cuenta que a menos que invierta una cantidad significativa de su tiempo, nada de lo que diga funcionará. No hay libro que pueda cubrir todo. Tendrás que trabajar muy duro.
Vamos a intentarlo Curso intensivo para AlphaZero.
1. Comprensión básica en el aprendizaje automático
Innumerable cantidad de libros. Pero si no tiene tiempo, le recomendaría los cursos de aprendizaje automático del profesor Andrew Ng en Coursera.
Sus palabras clave: conjuntos de entrenamiento, conjuntos de prueba, descenso de gradiente estocástico, tasa de aprendizaje, GPU, función de costo, entropía cruzada .
2. Redes neutrales profundas
Necesita comprender sobre las redes neuronales. Recomendaría el libro de aprendizaje profundo del profesor Ian Goodfellow si habla en serio. Si no tiene tiempo, siga nuevamente el curso en línea del profesor Andrew Ng en Coursera. No tienes que ir a todos los capítulos (¡pero deberías!).
YouTube tiene muchas introducciones rápidas a las redes neuronales, pruébelas.
Sus palabras clave: neurona, capas, pesos, sesgo, mini-lote, activación .
3. Búsqueda de árboles en Monte Carlo
Debes entender qué es Monte Carlo. Los libros sobre Monte Carlo están en todas partes en Amazon. Lea la wikipedia sobre MCTS si no tiene tiempo.
Sus palabras clave: muestreo, expansión, simulación, despliegues, retropropagación .
3. Aprendizaje de refuerzo
Sus palabras clave: gradiente de política, descenso de gradiente, tasa de aprendizaje
5. Representación en el tablero de ajedrez
El papel en sí es más simple. El modelo codifica el estado de la placa (por ejemplo, piezas) como una serie de valores binarios de codificación en caliente.
6. MCTS vs alfa-beta