¿Cuál es un buen recurso para familiarizarse con el aprendizaje por refuerzo?

8

Estoy familiarizado con el aprendizaje supervisado y no supervisado. Hice el curso SaaS realizado por Andrew Ng en Coursera.org.

Estoy buscando algo similar para el aprendizaje por refuerzo.

¿Me puede recomendar algo?

reinforcement-learning getting-started

— Martin S
fuente

5

A las buenas respuestas aquí, agregaría

Una breve descripción de RL : conceptos más esenciales en un solo lugar.
Otra breve descripción , en formato de presentación.
El recorrido de Ben Recht por un extraño de RL es bastante completo y accesible.
Las ecuaciones de Bellman : centrales para toda la teoría RL.
Gradientes de política explicados por Andrej Karpathy (mencionado en otras respuestas como "pong from pixels", este es el enlace).

Estos apenas arañan la superficie de RL, pero deberían ayudarlo a comenzar.

— Cantordust
fuente

3

Hay una lista de reproducción de Youtube (en el canal DeepMind ) cuyo título es Introducción al aprendizaje por refuerzo , que es un curso (de 10 lecciones) sobre aprendizaje por refuerzo de David Silver .

Una persona que siguió y terminó el curso escribió (como un comentario de Youtube):

Excelente curso Buen ritmo, ejemplos suficientes para proporcionar una buena intuición, y enseñado por alguien que lidera el campo en la aplicación de RL a los juegos.

— nbro
fuente

3

Antes de eso, pregúntese si realmente quiere aprender sobre el "aprendizaje de refuerzo". Aunque hay mucho entusiasmo por el aprendizaje por refuerzo, la aplicabilidad en el mundo real del aprendizaje por refuerzo es casi inexistente. La mayoría de los cursos en línea le enseñan muy poco sobre el aprendizaje automático, por lo que es mucho mejor profundizar en él, en lugar de avanzar hacia el aprendizaje de refuerzo. El aprendizaje por refuerzo de aprendizaje es algo diferente del aprendizaje sobre técnicas de aprendizaje sin supervisión / supervisadas.

Dicho esto, la forma más rápida de obtener una buena comprensión del aprendizaje de refuerzo es la siguiente:

Lea la publicación de blog de Andrej Karpathy "Pong from Pixels".
Mira las conferencias de Deep RL Bootcamp .
Para comprender las matemáticas detrás de estas técnicas, consulte Sutton and Barto's Reinforcement Learning: An Introduction .
Lea los documentos relevantes (juegos, etc.).

PD: Asegúrate de que eres minucioso con los conceptos básicos de las redes neuronales, ya que la mayoría de los documentos actuales en RL implican el uso de DNN de alguna manera u otra como aproximadores.

— riemann77
fuente

real-world applicability of reinforcement learning is almost non-existent AlphaGo fue entrenado con aprendizaje de refuerzo.

— cantordust

Gracias, lo que me gusta del aprendizaje de refuerzo es que puede mejorar solo haciendo la tarea una y otra vez. No se necesita supervisión. Solo el modelo tiene que describir el problema correctamente.

— Martin S

1

@cantordust, consulte alexirpan.com/2018/02/14/rl-hard.html

— riemann77

@thecomplexitytheorist Sí, estoy al tanto de esa publicación, y sí, hay dificultades asociadas con RL (como cualquier otro método de ML). Sin embargo, estas dificultades no implican que su aplicabilidad sea nula. Otro ejemplo exitoso (también mencionado en la publicación) es la mejora de la eficiencia de enfriamiento de los centros de datos de Google en un 40% , apenas insignificante.

— cantordust

1

@cantordust, debería leer esa publicación por completo, no hay aprendizaje de "aprendizaje de refuerzo" involucrado en "mejorar la eficiencia de enfriamiento", han mencionado claramente que hicieron predicciones basadas en datos de consumo de energía pasados.

— riemann77

2

Hace poco vi un curso de Microsoft en edx. Se llama 'Aprendizaje de refuerzo explicado'.

Aquí está el enlace: https://www.edx.org/course/reinforcement-learning-explained-0 Esto no es muy completo, pero al menos ofrece un buen punto de partida.

— mezcla
fuente

1

Yo diría que esta publicación es una lectura obligada:

https://rubenfiszel.github.io/posts/rl4j/2016-08-24-Reinforcement-Learning-and-DQN.html

— Borislav Markov
fuente