¿Qué es el aprendizaje de refuerzo recurrente?

20

Recientemente me encontré con la palabra "Aprendizaje de refuerzo recurrente". Entiendo qué es "Red neuronal recurrente" y qué es "Aprendizaje de refuerzo", pero no pude encontrar mucha información sobre lo que es un "Aprendizaje de refuerzo recurrente".

¿Puede alguien explicarme qué es un "aprendizaje de refuerzo recurrente" y cuál es la diferencia entre el "aprendizaje de refuerzo recurrente" y el "aprendizaje de refuerzo" normal como el algoritmo Q-Learning.

machine-learning reinforcement-learning

— Cero negativo
fuente

15

¿Qué es un "aprendizaje de refuerzo recurrente"?

El aprendizaje de refuerzo recurrente ( RRL ) se introdujo por primera vez para entrenar sistemas de comercio de redes neuronales en 1996. "Recurrente" significa que la salida anterior se introduce en el modelo como parte de la entrada. Pronto se extendió a la negociación en un mercado de divisas.

Se ha encontrado que la técnica RRL es una técnica exitosa de aprendizaje automático para construir sistemas de comercio financiero.

¿Cuál es la diferencia entre el "aprendizaje de refuerzo recurrente" y el "aprendizaje de refuerzo" normal (como el algoritmo Q-Learning)?

Los RRL enfoque difiere claramente de programación dinámica y de refuerzo algoritmos tales como TD-learning y Q-learning , que intentan estimar una función de valor para el problema de control.

El marco RRL permite crear la representación de problemas simple y elegante, evita la maldición de dimensionalidad de Bellman y ofrece ventajas convincentes en eficiencia:

RRL produce acciones valoradas reales (ponderaciones de cartera) naturalmente sin recurrir al método de discretización en el Q-learning .

RRL tiene un rendimiento más estable en comparación con el Q-learning cuando se expone a conjuntos de datos ruidosos. El algoritmo de Q-learning es más sensible a la selección de la función de valor (quizás) debido a la propiedad recursiva de la optimización dinámica, mientras que el algoritmo RRL es más flexible para elegir la función objetivo y ahorrar tiempo computacional.

$U( )$

Aquí encontrará una implementación de Matlab del algoritmo RRL.

Referencias

Aprendizaje de refuerzo para el comercio

Aprendizaje de refuerzo para sistemas de comercio y carteras

Comercio de divisas a través del aprendizaje de refuerzo recurrente

Comercio de acciones con aprendizaje de refuerzo recurrente (RRL)

Comercio de algoritmos utilizando Q-Learning y aprendizaje de refuerzo recurrente

EXPLORANDO ALGORITMOS PARA EL COMERCIO FX AUTOMATIZADO - CONSTRUCCIÓN DE UN MODELO HÍBRIDO

— Anton Danilov
fuente

@AntonDanilov No estoy seguro si eres consciente de esto. El tipo que se le ocurrió esta idea (su primer árbitro, J Moody) ha estado manejando un fondo usando este algo, y su desempeño ha estado lejos de ser espectacular.

— horaceT

Entonces, es bueno saber cómo cambia mi respuesta

— Anton Danilov

2

La distinción de RL recurrente (profundo) es que la función que asigna las observaciones de los agentes a su acción de salida es una red neuronal recurrente.

Una red neuronal recurrente es un tipo de red neuronal que procesa cada observación secuencialmente, de la misma manera para cada paso de tiempo.

Documento original: Aprendizaje profundo de Q recurrente para MDP parcialmente observables

— LearnOPhile
fuente