Ya tengo una implementación para un solo agente que trabaja en un problema de fijación de precios dinámico con el objetivo de maximizar los ingresos. Sin embargo, el problema con el que estoy trabajando implica varios productos diferentes que son reemplazos entre sí, por lo que el precio dinámico de todos ellos con alumnos independientes parece incorrecto, porque el precio de uno influye en la recompensa del otro. El objetivo sería ponerles un precio dinámico a todos para maximizar la suma de cada ingreso individual.
He estado haciendo algunas investigaciones para tratar de encontrar algo que aplique el aprendizaje de refuerzo de esta manera, pero muchas implementaciones de múltiples agentes que he encontrado se centran más en los juegos competitivos que en los cooperativos, o asumen un conocimiento incompleto de otros agentes (habría completado conocimiento de cada agente en este escenario). ¿Hay alguna aplicación bien documentada / investigada del aprendizaje cooperativo de esta manera?