¿Cómo es Alpha Zero "más humano"?


35

Tengo una pregunta posiblemente ingenua sobre AlphaZero. Lo he visto descrito como jugar en un estilo "más humano" que otras computadoras, pero haga lo que haga, gana unos 100 puntos ELO al hacerlo. Kasparov, y muchos otros, han afirmado que un humano fuerte en colaboración con una computadora vencerá a una computadora fuerte (¿quizás por unos 100 ELO?). Entonces, una pregunta obvia es, ¿cómo se compararía AlphaZero con una combinación de "centauro"?

Habiendo visto solo algunos juegos, lo que noto es que la mayoría de las computadoras juegan juegos abiertos que maximizan su propia movilidad, pero AlphaZero parece muy preocupado por limitar la movilidad de los oponentes. En un jugador humano, describiría esto como una cuestión de estilo, no más o menos humano.


44
Por lo que vale, esa afirmación de Kasparov es muy anticuada. Un humano y una computadora en colaboración ("ajedrez avanzado" o "ajedrez centauro") ya no pueden superar a una computadora por sí sola - las computadoras son demasiado buenas - Stockfish 8 tiene una calificación de alrededor de ~ 3400 IIRC, en comparación con ~ 2825 para Magnus Carlsen .
Stephen Touset

8
@StephenTouset Solo una precaución para tener cuidado con las clasificaciones Elo para motores. Los que he visto más comúnmente son de comparaciones de motor contra motor que no se han estandarizado para un ser humano real. Cita relevante de Wikipedia : "Estas clasificaciones, [...] no tienen relación directa con las clasificaciones FIDE Elo ni con otras clasificaciones de jugadores humanos de la federación de ajedrez. Excepto en algunos juegos de hombre contra máquina que el SSDF había organizado hace muchos años (que estaban lejos desde el nivel actual), no hay calibración entre ninguna de estas listas de clasificación y grupos de jugadores. "
mbrig

1
Creo que los humanos podrían pero no en los controles de tiempo estándar. Los juegos de correspondencia largos deberían estar bien.
SmallChess

44
ugh, AlphaZero es un producto de Google. Así que no es de extrañar que escuche más propaganda al respecto que los productos de otras compañías. Supongo que tienen mejores acuerdos con autores y editores. Tómelo con un montón de sal, como cualquier cosa sobre Waymo.
trabajos de codder

Respuestas:


33

La página 5 del documento tiene su respuesta:

... AlphaZero compensa el menor número de evaluaciones mediante el uso de su red neuronal profunda que cuesta mucho más selectivamente en las variaciones más prometedoras, posiblemente un enfoque más ajeno al ajedrez ...

"selectivamente" es la palabra clave. Qué significa eso? Usemos esta siguiente posición para nuestro ejemplo:

https://chess24.com/en/read/news/london-classic-5-caruana-shows-how-it-s-done

Movimientos

Este es un juego reciente ganado por Caruana en el London Chess Classic 2017. El alfil blanco está bajo ataque, y sabes que tienes que moverlo. Pero donde?

Posibilidades (no perder una pieza):

  • Bh4
  • Be3
  • Bd2
  • Bc1

¿Qué estaba pensando Caruana?

Sentí que iba a perder en algún momento, pero cuando vi 25.Bc1 de repente comencé a ser un poco más optimista sobre mis posibilidades. Me di cuenta de que mi posición es mala, pero al menos tenía un plan y eso era realmente todo lo que necesitaba para tener cierta confianza en esta posición. Cuando vi este b3, c4, la posición es de doble filo y tengo algunas posibilidades.

Este es el pensamiento humano , y un "movimiento humano". Caruana no había considerado Bh4, Be3 y Bd2 porque se "veían" mal. Se había centrado solo y solo en el movimiento Bc1.

Los humanos juegan al ajedrez de manera muy selectiva , descartamos movimientos irrazonables porque no tenemos tiempo para examinar todas las posibilidades por igual.

  • Descartamos Bh4 porque libera la tensión en el peón h6
  • Descartamos Be3 porque bloquea las dos torres blancas en el tercer rango
  • Descartamos Bd2 porque bloquea a la reina blanca al lado del rey

Eso es lo que AlphaZero intenta reclamar en el periódico. Afirman que su algoritmo, aunque más lento que Stockfish, es capaz de seleccionar selectivamente mejores movimientos que Stockfish en la búsqueda. Si bien Stockfish es más rápido, pierde tiempo en movimientos incorrectos. AlphaZero es más lento, pero es más preciso (como lo que estaba haciendo Caruana).

Por ejemplo, AlphaZero podría gastar el 80% de los recursos en Bc1 y el 20% en todos los demás movimientos de alfil. Stockfish podría dar un 25% por cada movimiento (Bh4, Be3, Bd2, Bc1).


1
Entonces, básicamente, el estilo de juego no es necesariamente más humano, sino el enfoque para encontrar cuál es el próximo movimiento para jugar. Al menos según el documento. Además, no puedo editarlo, pero su cita de Caruana tiene un error tipográfico bastante grande: "Cuando vi su b3, c4" debería ser "Cuando vi este b3, c4"
Arthur

@ Arthur Según el documento (y solo el documento), el estilo de juego no es necesariamente más humano. No digo NO, pero nada en el periódico dice eso.
SmallChess

Los algoritmos de Monte Carlo tienen un parámetro para controlar explorar x explotar, por lo que los movimientos que alfa-beta nunca considerarían (debido al tiempo), alfa cero sí.
Fernando

@Fernando ¿Puedes explicar a qué respondes? Me cuesta ver el punto. También estoy confundido por 'nunca considerar debido al tiempo'. La búsqueda alfa-beta no tiene en cuenta las ramas que son claramente peores que otras ramas ya exploradas. No veo qué tiene que ver esto con el tiempo.
IA Petr Harasimovic

Básicamente, si una línea es +0.32 y la otra es +0.13, AlphaZero pasará tiempo con la primera.
Jossie Calderon

16

La mayoría de los motores fuertes enfatizan la búsqueda profunda, a expensas de tener una función de evaluación superficial. En el artículo de AlphaZero, dicen que Stockfish analiza 70 millones de posiciones por segundo.

Los grandes maestros humanos miran muy pocas posiciones en comparación con los motores, pero tienen una mejor sensación de quién es mejor en una posición determinada.

AlphaZero observó solo 80,000 posiciones por segundo, por lo que pasa mucho más tiempo en su función de evaluación.

Ese es el sentido en el que querían decir "más humano", nada más.


11

AlphaZero ya parece jugar como un "centauro" regular -> correspodence GM con asistencia de motor.

Como FM, disfrutaría mucho más jugar AlphaZero frente a un motor normal.

Una comparación sería que juega como lo haría Karpov con tácticas perfectas. (El juego 9 AlphaZero juega una pieza hacia abajo durante 15 movimientos, que es muy parecido a Tal).

No es solo estilo, AlphaZero da la impresión de comprender mejor las posiciones que Stockfish.

AlphaZero tampoco sufre el efecto Horizon que todos los motores de ajedrez habían sufrido hasta ahora. Una y otra vez es capaz de evaluar correctamente una posición más baja que Stockfish.

Aquí hay un ejemplo:

AlphaZero - Stockfish, Alphazero vs Stockfish: AlphaZero - Stockfish, 2017-12-05, 1-0
1. d4 e6 2. e4 d5 3. Nc3 Nf6 4. e5 Nfd7 5. f4 c5 6. Nf3 cxd4 7. Nb5 Bb4 + 8. Bd2 Bc5 9. b4 Be7 10. Nbxd4 Nc6 11. c3 a5 12. b5 Nxd4 13. cxd4 Cb6 14. a4 Cc4 15. Ad3 Nxd2 16. Kxd2 Ad7 17. ke3 B6 18. g4 h5 19. Dg1 hxg4 20. Dxg4 Af8 21. h4 De7 22. Rhc1 g6 23. Rc2 Rd8 24. Rac1 We8 25. Tc7 Tc8 26. Rxc8 + Bxc8 27. Tc6 JLb7 28. Rc2 Rd7 29. Cg5 JLe7 30. Bxg6 Axg5 31. Qxg5 fxg6 32. f5 Tg8 33. Dh6 Df7 34. f6 Rd8 35. Kd2 Rd7 36. Rc1 Rd8 37. Qe3 Qf8 38. Qc3 Qb4 39. Qxb4 axb4 40. Rg1 b3 41. Kc3 Bc8 42. Kxb3 Bd7 43. Kb4 Be8 44. Ra1 Kc7 45. a5 Bd7 46. ​​axb6 + Kxb6 47. Ra6 + Kb7 48. Kc5 Rd8 49. Ra2 Rc8 + 50. Kd6 Be8 51. Ke7 g5 52. hxg5 1-0

AlphaZero juega el rey al centro 16. Kxd2! en un juego intermedio, juzgando correctamente que las negras no podrán aprovecharlo.

Es capaz de evaluar correctamente un sacrificio de pieza 30. Bxg6! mientras que los motores normales no pueden ver que están perdidos por varios movimientos.

  1. f5 también es bastante agradable.

Hay otros ejemplos como el sacrificio de intercambio en el Juego 3.


8

Es tan fácil subirse a un carro que dice que el juego de Alpha-Zero es "más" humano que los programas de ajedrez de computadora anteriores como saltar en el vagón opuesto y decir que el juego de Alpha-Zero es completamente "alienígena". No está claro que el juego de Alpha-zero sea "más humano", especialmente dada nuestra tendencia humana hacia el antropomorfismo.

El ajedrez como una lucha de la mente (humana)

Pero en el ajedrez, ¿es cierta esta tendencia? Magnus Carlsen habló una vez sobre cómo las computadoras 'tradicionales' en general carecen de creatividad humana y dijo:

"El ajedrez se trata de la lucha entre las mentes humanas. Eso es lo que lo hace emocionante. El ajedrez informático es mecánico, seco y suave. Los movimientos son muy fuertes, por supuesto, pero no tiene estilo. Si intentas jugar contra una computadora de ajedrez , no solo perderá con una certeza muy alta, sino que también se aburrirá en el proceso.

Magnus Carlsen no vio evidencia de estilos humanos de juego en las computadoras de ajedrez tradicionales. Así que examinemos si el reciente logro de Alpha-Zero ha deshecho esta perspectiva y nos ha movido hacia algo que nos recuerda más a nosotros mismos.

Si por "humano" te refieres a jugar "exhibiendo un comportamiento que es más probable que atraiga nuestro sentido de antropomorfismo", ¿el estilo de Alpha-zero parece más humano? ¿Cómo probamos realmente a estos humanos miopes subjetivos que les gusta proyectar sobre cosas no humanas? Preguntemos: ¿el algoritmo 'selecciona selectivamente mejor' o exhibe 'elección creativa más humana' en su estilo de juego?

Los creadores del algoritmo indican que, a diferencia de Stockfish, que utiliza un algoritmo de búsqueda Alpha-Beta, Alpha-Zero emplea un algoritmo de búsqueda de árbol Monte-Carlo (MCTS) que acepta como entrada parámetros ponderados θ creados a partir de resultados anteriores ~ Página 3. Dominar el ajedrez y Shogi por juego propio con un algoritmo de aprendizaje de refuerzo general ).

Entonces el algoritmo no exhibe elección en absoluto. Realmente se involucra en una búsqueda aleatoria pero probabilística de Monty-carlo donde las posibles rutas de búsqueda disponibles están cada vez más perjudicadas por los resultados anteriores. ¿Alpha-zero eligió optimizar su estilo de juego de esta manera o fue esa la elección de sus programadores?

¿Alpha-zero siempre tiene disponibles todos los movimientos posibles para su consideración o algunos movimientos tienen prejuicios algorítmicos de una manera que imita la experiencia que los humanos pueden interpretar antropomórficamente?

Inicialmente tenía todos los movimientos disponibles, por lo que su "estilo" era completamente aleatorio. Sin embargo, dado que su búsqueda está cada vez más limitada de manera óptima por el éxito o el fracaso anterior, su estilo en realidad está cambiando hacia el modo con el que sus programadores lo han encadenado. Sin embargo, ¿es esto 'más humano'? Compare esto con Magnus Carlesen, que a veces elige movimientos menos óptimos porque son más creativos :

Magnus Carlsen: "Aprecio crear algo único"

El ajedrez como una lucha de la mente (alienígena)

Los humanos pueden elegir los criterios que impulsan su propio estilo de juego (por ejemplo, a menudo elegí impulso y error en mi propio estilo). Muchos ven el juego de Alpha-zero en el ajedrez y se van como Alien decididamente . Nick Hynes, un estudiante graduado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT observa:

“Lo que estamos viendo aquí es un modelo libre de prejuicios y presupuestos humanos: puede aprender lo que determine que es óptimo, lo que de hecho puede tener más matices que nuestras propias concepciones de lo mismo. Es como una civilización alienígena inventando sus propias matemáticas que le permiten hacer cosas como viajar en el tiempo ... "

Del mismo modo, el gerente general Peter Heine Nielsen le dijo a Chess.com :

"Después de leer el periódico, pero especialmente viendo los juegos, pensé, bueno, siempre me pregunté cómo sería si una especie superior aterrizara en la tierra y nos mostrara cómo juegan al ajedrez. Siento que ahora lo sé".

Parece que la mayoría reacciona al estilo emergente de juego de Alpha-zero como 'juego alienígena' y no como 'más humano'.

Por lo tanto, hay razones para no estar de acuerdo con las respuestas anteriores que dicen 'sí'.


3
Su respuesta es bastante engañosa e inexacta en algunos lugares. El uso de MCTS no es la diferencia crucial, no es por eso que supera a Stockfish. También podrían usar la búsqueda alfa-beta, simplemente sintieron que MCTS funcionó mejor para ellos. Los elementos principales del algoritmo AlphaZero son una red neuronal convolucional muy profunda, aprendizaje de refuerzo (es decir, la red se sintoniza mediante el juego propio) y una búsqueda de árbol (que resulta ser MCTS pero que no es necesario). No hay nada hecho a mano en él, por lo que decir "su estilo realmente está cambiando hacia el modo en que sus programadores lo han encadenado" es incorrecto.
IA Petr Harasimovic

"El ajedrez se trata de la lucha entre las mentes humanas. Eso es lo que lo hace emocionante. El ajedrez informático es mecánico, seco y soso. Los movimientos son muy fuertes, por supuesto, pero no hay estilo". ¿Alguien ha realizado un experimento de estilo de prueba de Turing bien llevado a cabo con una serie de GM que juegan contra un oponente anónimo que puede ser humano o una computadora?

Si crees que mi punto era que MCTS es la diferencia crucial (entre Alpha-zero y Stockfish), te estás perdiendo mi punto. Mi punto era que los humanos, no los algoritmos, decidieron el estilo de juego de Alpha-zero, decidieron la decisión de Alpha-zero. Mi punto era que estas elecciones muy humanas parecen impartir un estilo de juego que afecta tanto a los GM como a los aficionados, ya que decididamente no son humanos.
user34445


1
@ user34445 En realidad, creo que ese párrafo no tiene ningún sentido, solo estaba tratando de racionalizarlo. Los humanos no decidieron el estilo de juego de AlphaZero, decidieron su estilo de aprendizaje. Ciertamente no le impusieron su visión de cómo jugar ajedrez.
IA Petr Harasimovic

5

Este es un momento increíblemente interesante para estar vivo.

Las computadoras de ajedrez a partir de la década de 1970 han sido algoritmos de búsqueda basados ​​en un árbol minimax que utilizan la poda alfa-beta. Estos programas se hicieron cada vez más fuertes tanto por los avances en la velocidad y el paralelismo de la computadora como por las mejoras en la función de evaluación heurística utilizada para podar ramas y seleccionar nodos hoja. Pero la gente ha notado durante mucho tiempo cuán materialista y aburrido es el juego en la computadora, y muchas personas (incluido yo mismo) pensaron que era imposible codificar la intuición "humana" en el software.

¿Pero has visto estos juegos?

AlphaZero exhibe un juego increíblemente hermoso, que incluye varios ejemplos de sacrificio material para obtener una ventaja posicional a largo plazo. Esto es una reminiscencia de algunos de los juegos más bellos de los maestros humanos, pero también con una precisión técnica inigualable. Este es el primer ejemplo que he visto en mi vida de algo generado por computadora y que también tiene una belleza profunda .


El reclamo del centauro:

Escuché a Garry decir esto muchas veces, pero no es cierto. O al menos, ya no será cierto con AlphaZero en la escena.

Imagínese esto: hay un saco de piezas que tiene 10,000 continuaciones relevantes, donde 5,000 de ellas son puramente tácticas (aunque en su mayoría no relacionadas entre sí) y otras 5,000 que son en su mayoría posicionales (pero en su mayoría no relacionadas). ¿Cómo podría un ser humano examinar todas estas variaciones sin cometer un error? Si AlphaZero ahora puede ver estos movimientos altamente creativos, ¿qué contribución podría hacer un humano?


La última frontera:

Queda un lugar donde el cálculo bruto aún superará a las redes neuronales profundas: los finales. No hay una cantidad de intuición que supere una base de tabla. Pero los finales que requieren una base de tabla (porque un árbol de búsqueda no puede ser lo suficientemente profundo como para calcular el movimiento correcto) son bastante raros. Y podría simplemente conectar una base de tabla en AlphaZero, pero eso destruiría la pureza de un motor "autodidacta", ¿verdad?


3

Dado que los humanos carecen de la capacidad de buscar en profundidad, como los programas tradicionales de ajedrez informático (fritz, stockfish y otros), crean 'principios estratégicos' o reglas básicas (control central, desarrollo, seguridad del rey) y conceptos o trucos que son aplicables en una gran variedad de situaciones de diferentes maneras, como sacrificio, torres conectadas, par de alfil, finales específicos, por ejemplo, cómo arrinconar al rey con una torre y un peón.

Creo que alpha zero ha reinventado independientemente muchos de estos conceptos (percepciones y conceptos) y también ha aprendido toneladas de otros nuevos, porque no era necesario que su conocimiento se construyera sobre funciones de evaluación humana y la fuerte búsqueda minmax que siempre asume que el oponente es un genio.

Por supuesto, tales principios en sí mismos entran en conflicto en algunas situaciones, es por eso que varias jugadas de apertura y trampas se estudian cuidadosamente, por ejemplo, no desarrolles reina demasiado pronto.

Por otro lado, los humanos también notan que una vez que pierdes una pieza (sin cambio) debilitas tus fuerzas, por lo que tienen mucho cuidado de no perder una pieza sin una compensación.

Creo que el juego de Alphazero ha liberado el ajedrez informático (y el ajedrez humano) del miedo servil de perder material pequeño y la excesiva dependencia de la apertura de libros y valores de piezas.

Los juegos de Alphazero muestran cosas como los 'principios estratégicos' como control central, desarrollo, espacio, iniciativa, son mucho más importantes si tu oponente es descuidado. En otras palabras, 'sacrificio' no es realmente sacrificio sino intercambiar una pieza por ganancia en iniciativa, posición, movimiento dirigido.

Alphago (no el cero) se basó en la evaluación humana, pero alphazero configura toda la cadena de evaluación para 'buscar o simular' como un único proceso de extremo a extremo y presenta una forma de juego totalmente nueva.

Si lo piensas bien, los grandes maestros del pasado como Morphy, Fischer, Kasparov han sido aplaudidos por este tipo de juego, por lo general, intuitivo, donde no están limitados por la evaluación escrita aprovechando situaciones especiales que surgir. Creo que los juegos de alpha zero tienen ese factor 'wow'.

Por qué las redes neuronales. Mientras que los programas de computadora que usan representación simbólica y búsqueda discreta solo pueden usar 'una' forma de pensar, las redes neuronales pueden procesar situaciones paralelas con evaluaciones alternativas y conflictivas y pasar a la vista más valiosa en las capas posteriores.


2

Más humano en el sentido de que los movimientos que juega parecen coincidir más o menos con un enfoque humano: jugar para obtener ventajas a largo plazo, sacrificios posicionales, actividad de piezas. Existe una aparente convergencia con el conocimiento humano del ajedrez y los principios estratégicos aceptados refinados a lo largo de los siglos (por ejemplo, "descubrió" muchas mismas aperturas). Esto es notable dado el hecho de que AlphaZero no ha sido sembrado con conocimiento de ajedrez construido por humanos.

Pero las similitudes terminan aquí. AlphaZero lo lleva al siguiente nivel y lo hace mejor, y en formas que los humanos nunca han concebido. AlphaZero posee capacidades "sobrehumanas" para citar el artículo: "AlphaZero logró un nivel de juego sobrehumano" [...] ( https://arxiv.org/pdf/1712.01815.pdf ). Además, no tiene las debilidades inherentes a los seres humanos: problemas de concentración, miedo, cansancio, sentimientos, intuición, etc. que limitan a los humanos. Y su cerebro de silicio permite combinaciones tácticas más allá de las capacidades humanas cuando es necesario.


2
Entonces hay una paradoja. Stockfish se beneficia de la experiencia humana; Alphazero no. Pero Alpha zero parece más humano. Lo que significa, tal vez, que no hicimos, con la generación Stackfish, un muy buen trabajo para destilar nuestros pensamientos
Philip Roe

1

Quiero agradecer a todos los que han respondido a esta pregunta, a menudo con sutileza y perspicacia. La principal diferencia en las respuestas, me parece, está en la interpretación de la palabra humano.

AlphaZero no juega ajedrez humano en el sentido de descuidos y errores de cálculo, pero su proceso de "pensamiento" parece corresponder, en una forma más elevada, a cómo creo que piensan los jugadores más fuertes. Elaboras, con bastante rapidez, una lista de "movimientos candidatos" que te gustaría jugar, y para los jugadores más fuertes esta lista es increíblemente precisa, incluso jugando algo como un juego sensiblemente reconocible en un minuto. El resto del tiempo se dedica a preguntar, ¿cuál de los movimientos en esa lista realmente funciona? Petrosian dijo que se sentía más en forma cuando el movimiento que finalmente jugó fue en el primero que pensó. Todos sabemos lo satisfactorio que es cuando el movimiento que más deseamos jugar resulta tácticamente jugable. Puedo relacionarme con el algoritmo AlphaZero mucho más fácilmente que con la búsqueda AlphaBeta,

Lo que parece más interesante es cómo la máquina fue capaz, por juego propio, de reconocer a los candidatos prometedores. Ahí es donde radica el potencial para una verdadera revolución. Me pregunto si esto solo es posible para dominios como ajedrez e ir, donde los objetivos se pueden definir claramente. Pero me parece sorprendente que AlphaZero parece mostrar un juego intencionado, pero Stockfish no tiene idea de lo que está sucediendo.


0

Según entiendo las redes neuronales, la verdadera ventaja de A0 es su evaluación superior de las posiciones de la junta. Esta evaluación incorpora tanto conocimiento táctico a corto plazo (que en cierto sentido sirve como multiplicador del número de posiciones examinadas) como una evaluación superior del valor estratégico.


1
¡Bienvenido a Chess SE! ¿Podría proporcionar una referencia de las razones por las que cree que las redes neuronales funcionan de esa manera?
Pablo S. Ocal

0

Una cosa que siento que toda la discusión se ha perdido es que A0 puede jugar ajedrez, shogi e ir, todo muy bien y todo desde el auto entrenamiento. Esto es mucho más humano. Además, en ir ha revelado ideas profundamente nuevas a los mejores jugadores (según tengo entendido). Otros motores son muy específicos de la tarea, A0 parece lo contrario. Me gustaría verlo jugar ajedrez960.


1
No veo cómo esto responde la pregunta.
SmallChess

-2

No creo que haya nada 'humano' en Alpha. Solo usó hardware mucho más fuerte y jugó ajedrez de mayor calidad. Los buenos movimientos de apertura que encuentra (por ejemplo, fianchetto king side con Bg2) se deben totalmente a su libro de apertura simulado. Los conceptos que me impresionaron y que he formulado en 'El secreto del ajedrez': http://davidsmerdon.com/?p=1970 , que Alpha usa por primera vez entre los mejores motores, son cadenas avanzadas más largas, por ejemplo el d4 -e5-f6 cadena que triunfó una pieza entera en el juego de sacrificio Bg6, y los creadores hacia atrás centrales, como se ve en los juegos de defensa francesa entre ambos motores. Ambos conceptos implican buscar a grandes profundidades, y probablemente aquí Alpha fue ayudado por su tremendo hardware. De lo contrario, no veo nada humano en su juego. Muchos de los juegos fueron, sin duda,


55
Estas dos afirmaciones suyas son incorrectas: 1) "Solo usaba hardware mucho más fuerte" - Sí, usaba hardware mucho más fuerte que Stockfish pero esto no es lo que hace la diferencia. Es el software muy diferente que requiere el hardware fuerte. 2) "Los buenos movimientos de apertura que encuentra se deben completamente a su libro de apertura simulado". - No utiliza ningún libro de aperturas.
IA Petr Harasimovic

Es precisamente esto lo que marca la diferencia: el hardware Alpha exponencialmente más grande. Todo probador de ajedrez sabe que duplicar la velocidad aumenta la fuerza del ajedrez en alrededor de 70 elos más o menos, dependiendo del software. La diferencia entre 32 núcleos y 4TPU, 1000-2000 núcleos, es aproximadamente 6 duplicaciones. Eso daría 420 elos. Entonces, en realidad, si bien realizó 100 elos más fuerte en ese hardware, en condiciones iguales, Alpha es alrededor de 300 elos más débil.
Lyudmil Tsvetkov

Utiliza un libro de apertura, por supuesto, sin importar lo que digan. Alpha ha sido entrenado en los mejores juegos ganadores de GM. Eso se trasluce muy claramente, si uno ve la selección de apertura de Alpha: precisamente las aperturas que recomienda la teoría moderna y precisamente aquellas donde las posibilidades de ganar son mejores. No fianchetto con Bg2 así como así.
Lyudmil Tsvetkov

3
@Lyudmil, Google ha logrado algo sorprendente en Alpha Zero. ¡Se enseñó estos movimientos jugando contra sí mismo conociendo solo las reglas del juego! Acusar al equipo de trampas Alpha Zero muestra que no has entendido su logro o su misión en absoluto: ¡están empujando las fronteras de la IA hacia adelante y como un pequeño gesto en el camino venció a todos los motores de ajedrez existentes y al talento humano en el trabajo de una tarde!
saille

1
@LyudmilTsvetkov Estás completamente incorrecto. Alpha Zero (y de eso se trata) está entrenado sin ningún juego humano. Le dicen las reglas y luego inventa todos los aspectos de su juego en cuatro horas de juego por sí mismo sin ningún dato externo nuevo.
Maverick
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.