No soy especialista en el tema, y mi pregunta es probablemente muy ingenua. Se deriva de un ensayo para comprender los poderes y la limitación del aprendizaje por refuerzo como se usa en el programa AlphaGo.
El programa AlphaGo se ha creado utilizando, entre otras cosas (exploración de árboles de Monte-Carlo, etc.), redes neuronales que se entrenan a partir de una gran base de datos de juegos go go humanos, y que luego se refuerzan al permitir versiones de juego de programa contra sí mismo muchas veces.
Ahora me pregunto qué pasaría si tratamos de construir un programa de este tipo sin una base de datos humana, es decir, comenzando con un programa básico de Go simplemente conociendo reglas y algún método para explorar árboles, y dejando que juegue contra sí mismo para mejorar su red neuronal. ¿Llegaremos, después de muchos juegos contra sí mismos, a un programa capaz de competir o vencer a los mejores jugadores humanos? Y si es así, ¿cuántos juegos (en orden de magnitud) serían necesarios para eso? O, por el contrario, ¿tal programa convergerá hacia un jugador mucho más débil?
Supongo que el experimento no se ha hecho, ya que AlphaGo es muy reciente. Pero la respuesta puede ser obvia para un especialista. De lo contrario, cualquier suposición educada me interesará.
También se puede hacer la misma pregunta para juegos "más simples". Si utilizamos más o menos las mismas técnicas de refuerzo de aprendizaje utilizadas para AlphaGo, pero sin el uso de la base de datos humana, para un programa de Ajedrez, ¿obtendríamos finalmente un programa capaz de vencer al mejor humano? Y si es así, ¿qué tan rápido? ¿Se ha intentado esto? O si no fuera por el ajedrez, ¿qué pasa con las damas o incluso juegos más simples?
Muchas gracias.