Tengo una duda sobre cómo se entrena exactamente la función de pérdida de una red Deep Q-Learning. Estoy usando una red de alimentación de 2 capas con capa de salida lineal y capas ocultas relu.
- Supongamos que tengo 4 acciones posibles. Por lo tanto, la salida de mi red para el estado actual es . Para hacerlo más concreto, supongamos que
- Ahora tomo la acción correspondiente al valor es decir, la tercera acción, y un nuevo estado .
- Luego, calculo el paso directo con el estado y digamos que obtengo los siguientes valores en la capa de salida . Digamos también la recompensa y .
Es la pérdida dada por:
O
O
Gracias, lo siento, tuve que escribir esto de una manera muy básica ... Estoy confundido por toda la notación. (Creo que la respuesta correcta es la segunda ...)