El sitio web de inteligencia artificial define el aprendizaje fuera de política y dentro de política de la siguiente manera:
"Un alumno fuera de la política aprende el valor de la política óptima independientemente de las acciones del agente. Q-learning es un alumno fuera de la política. Un alumno dentro de la política aprende el valor de la política que lleva a cabo el agente, incluidos los pasos de exploración ".
Me gustaría pedirle una aclaración al respecto, porque no parecen hacer ninguna diferencia para mí. Ambas definiciones parecen ser idénticas. Lo que realmente entendí es el aprendizaje sin modelos y basado en modelos, y no sé si tienen algo que ver con los en cuestión.
¿Cómo es posible que la política óptima se aprenda independientemente de las acciones del agente? ¿No se aprende la política cuando el agente realiza las acciones?