Aprendizaje Cooperativo de Refuerzo

10

Ya tengo una implementación para un solo agente que trabaja en un problema de fijación de precios dinámico con el objetivo de maximizar los ingresos. Sin embargo, el problema con el que estoy trabajando implica varios productos diferentes que son reemplazos entre sí, por lo que el precio dinámico de todos ellos con alumnos independientes parece incorrecto, porque el precio de uno influye en la recompensa del otro. El objetivo sería ponerles un precio dinámico a todos para maximizar la suma de cada ingreso individual. $Q(\lambda)$

He estado haciendo algunas investigaciones para tratar de encontrar algo que aplique el aprendizaje de refuerzo de esta manera, pero muchas implementaciones de múltiples agentes que he encontrado se centran más en los juegos competitivos que en los cooperativos, o asumen un conocimiento incompleto de otros agentes (habría completado conocimiento de cada agente en este escenario). ¿Hay alguna aplicación bien documentada / investigada del aprendizaje cooperativo de esta manera?

machine-learning reinforcement-learning

— usuario3704120
fuente

1

Puedes mirar estos papeles. El primero está bastante relacionado con tu tarea.
http://icamt2016.org/papers/SS-LTMLBDA-06-05.pdf http://researcher.watson.ibm.com/researcher/files/us-kephart/icml00_qrt.pdf

— Prayalankar
fuente

0

Con todo, lo que está tratando de alcanzar es la eficiencia de Pareto.

Para hacerlo cooperativo, debe definir una función de recompensa única que sea compartida por todos los jugadores (podría ser una función que combina de alguna manera funciones de recompensa individuales).

De alguna manera, debe sopesar las recompensas que obtiene de un producto con respecto a los demás.

— Juan leni
fuente