El aprendizaje se refiere a cualquier algoritmo que refina una creencia sobre el mundo a través de la exposición a experiencias o ejemplos de las experiencias de otros. Los algoritmos de aprendizaje no tienen un padre claro, ya que se desarrollaron por separado en muchos subcampos o disciplinas diferentes. Una taxonomía razonable es el modelo de las 5 tribus . ¡Algunos algoritmos de aprendizaje realmente usan la búsqueda dentro de sí mismos para descubrir cómo cambiar sus creencias en respuesta a nuevas experiencias!
Un ejemplo de algoritmo de aprendizaje utilizado hoy es Q-learning , que forma parte de la familia más general de algoritmos de aprendizaje por refuerzo . Q-learning funciona así:
a. El programa de aprendizaje (generalmente llamado agente ) recibe una representación del estado actual del mundo y una lista de acciones que podría elegir realizar.
si. Si el agente no ha visto este estado del mundo antes, asigna un número aleatorio a la recompensa que espera obtener por realizar cada acción. Almacena este número comoQ ( s , a ), adivina la calidad de la acción una en estado s.
C. El agente miraQ ( s , a )para cada acción que pueda realizar. Elige la mejor acción con alguna probabilidadϵ y de lo contrario actúa al azar.
re. La acción del agente hace que el mundo cambie y puede dar lugar a que el agente reciba una recompensa del medio ambiente. El agente anota si obtuvo una recompensa (y cuánto fue la recompensa) y cómo es el nuevo estado del mundo. Luego ajusta su creencia sobre la calidad de realizar la acción que realizó en el estado en el que solía estar, de modo que su creencia sobre la calidad de esa acción está más cerca de la realidad de la recompensa que obtuvo, y la calidad del lugar donde se encontraba. terminó.
mi. El agente repite los pasos bd para siempre. Con el tiempo, sus creencias sobre la calidad de los diferentes pares de estado / acción convergerán para coincidir cada vez más con la realidad.