En el aprendizaje por refuerzo, nuestro objetivo es optimizar la función de valor de estado o la función de valor de acción, que se definen de la siguiente manera:
Sin embargo, cuando usamos el método Q-learning para obtener la estrategia óptima, el método de actualización es el siguiente:
Mi pregunta es:
por qué en Q-learning no hay probabilidad de transición . ¿Significa que no necesitamos esta al modelar MDP?