Recientemente me encontré con la palabra "Aprendizaje de refuerzo recurrente". Entiendo qué es "Red neuronal recurrente" y qué es "Aprendizaje de refuerzo", pero no pude encontrar mucha información sobre lo que es un "Aprendizaje de refuerzo recurrente".
¿Puede alguien explicarme qué es un "aprendizaje de refuerzo recurrente" y cuál es la diferencia entre el "aprendizaje de refuerzo recurrente" y el "aprendizaje de refuerzo" normal como el algoritmo Q-Learning.