Respuestas:
A las buenas respuestas aquí, agregaría
Una breve descripción de RL : conceptos más esenciales en un solo lugar.
Otra breve descripción , en formato de presentación.
El recorrido de Ben Recht por un extraño de RL es bastante completo y accesible.
Las ecuaciones de Bellman : centrales para toda la teoría RL.
Gradientes de política explicados por Andrej Karpathy (mencionado en otras respuestas como "pong from pixels", este es el enlace).
Estos apenas arañan la superficie de RL, pero deberían ayudarlo a comenzar.
Hay una lista de reproducción de Youtube (en el canal DeepMind ) cuyo título es Introducción al aprendizaje por refuerzo , que es un curso (de 10 lecciones) sobre aprendizaje por refuerzo de David Silver .
Una persona que siguió y terminó el curso escribió (como un comentario de Youtube):
Excelente curso Buen ritmo, ejemplos suficientes para proporcionar una buena intuición, y enseñado por alguien que lidera el campo en la aplicación de RL a los juegos.
Antes de eso, pregúntese si realmente quiere aprender sobre el "aprendizaje de refuerzo". Aunque hay mucho entusiasmo por el aprendizaje por refuerzo, la aplicabilidad en el mundo real del aprendizaje por refuerzo es casi inexistente. La mayoría de los cursos en línea le enseñan muy poco sobre el aprendizaje automático, por lo que es mucho mejor profundizar en él, en lugar de avanzar hacia el aprendizaje de refuerzo. El aprendizaje por refuerzo de aprendizaje es algo diferente del aprendizaje sobre técnicas de aprendizaje sin supervisión / supervisadas.
Dicho esto, la forma más rápida de obtener una buena comprensión del aprendizaje de refuerzo es la siguiente:
Lea la publicación de blog de Andrej Karpathy "Pong from Pixels".
Mira las conferencias de Deep RL Bootcamp .
Para comprender las matemáticas detrás de estas técnicas, consulte Sutton and Barto's Reinforcement Learning: An Introduction .
Lea los documentos relevantes (juegos, etc.).
PD: Asegúrate de que eres minucioso con los conceptos básicos de las redes neuronales, ya que la mayoría de los documentos actuales en RL implican el uso de DNN de alguna manera u otra como aproximadores.
Hace poco vi un curso de Microsoft en edx. Se llama 'Aprendizaje de refuerzo explicado'.
Aquí está el enlace: https://www.edx.org/course/reinforcement-learning-explained-0 Esto no es muy completo, pero al menos ofrece un buen punto de partida.
Yo diría que esta publicación es una lectura obligada:
https://rubenfiszel.github.io/posts/rl4j/2016-08-24-Reinforcement-Learning-and-DQN.html
real-world applicability of reinforcement learning is almost non-existent
AlphaGo fue entrenado con aprendizaje de refuerzo.