Aquí tienes algunas buenas referencias sobre el aprendizaje por refuerzo:
Clásico
Sutton RS, Barto AG. Aprendizaje de refuerzo: una introducción. Cambridge, Mass: A Bradford Book; 1998. 322 p.
El borrador para la segunda edición está disponible de forma gratuita: http://incompleteideas.net/book/the-book-2nd.html
Russell / Norvig Capítulo 21:
Russell SJ, Norvig P, Davis E. Inteligencia artificial: un enfoque moderno. Upper Saddle River, Nueva Jersey: Prentice Hall; 2010
Más técnico
Szepesvári C. Algoritmos para el aprendizaje por refuerzo. Conferencias de síntesis sobre inteligencia artificial y aprendizaje automático. 2010; 4 (1): 1–103. http://www.ualberta.ca/~szepesva/RLBook.html
Bertsekas DP. Programación dinámica y control óptimo. 4ta edición. Belmont, Mass .: Athena Scientific; 2007. 1270 p.
Capítulo 6, vol 2 está disponible de forma gratuita: http://web.mit.edu/dimitrib/www/dpchapter.pdf
Para desarrollos más recientes
Wiering M, van Otterlo M, editores. Aprendizaje reforzado. Berlín, Heidelberg: Springer Berlin Heidelberg; 2012 Disponible en: http://link.springer.com/10.1007/978-3-642-27645-3
Kochenderfer MJ, Amato C, Chowdhary G, How JP, Reynolds HJD, Thornton JR, et al. Toma de decisiones bajo incertidumbre: teoría y aplicación. 1 edición Cambridge, Massachusetts: The MIT Press; 2015. 352 p.
Aprendizaje de refuerzo multiagente
Buşoniu L, Babuška R, Schutter BD. Aprendizaje de refuerzo de múltiples agentes: una descripción general. En: Srinivasan D, Jain LC, editores. Innovaciones en sistemas y aplicaciones de múltiples agentes - 1. Springer Berlin Heidelberg; 2010 p. 183–221. Disponible en: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7
Schwartz HM. Aprendizaje automático de múltiples agentes: un enfoque de refuerzo. Hoboken, Nueva Jersey: Wiley; 2014.
Videos / Cursos
También sugeriría el curso de David Silver en YouTube: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa