En el aprendizaje por refuerzo, tenemos una función de recompensa que informa al agente qué tan bien están funcionando sus acciones y estados actuales. En una configuración general, la función de recompensa es una función de tres variables:
- Estado actual
- Acción actual en el estado actual
- Siguiente estado
Entonces se ve algo así como:
Cuál es mi pregunta (que probablemente sea mi malentendido), normalmente la persona que usa el aprendizaje por refuerzo decide cuál es la recompensa. Por ejemplo, asigna 1000 puntos para alcanzar la meta, o asigna -1000 puntos para estrellar el robot autónomo. En estos escenarios, no está claro para mí por qué necesitaríamos muestras para aprender R. R se especifica a priori y luego usamos nuestro agente. ¿Derecha? Sin embargo, sé que estoy equivocado porque en las notas de Andrew Ng dice:
Donde dice que no sabemos la función de recompensa explícitamente. Eso me parece extraño. Sé que estoy equivocado y me encantaría que alguien pudiera aclararme en qué escenarios realmente tenemos que aprender R de las muestras.
(obviamente, las probabilidades de transición deben aprenderse porque uno no sabe cómo el entorno hará que nuestro agente se mueva a priori).