¿Se puede aplicar el aprendizaje por refuerzo para el pronóstico de series de tiempo?

Sí, pero en general no es una buena herramienta para la tarea, a menos que haya una retroalimentación significativa entre las predicciones y el comportamiento continuo del sistema.

Para construir un problema de aprendizaje de refuerzo (RL) donde valga la pena usar un algoritmo de predicción o control de RL, entonces necesita identificar algunos componentes:

Un entorno que se encuentra en uno de los muchos estados que se pueden medir / observar en una secuencia.
Un agente que puede observar el estado actual y tomar acciones en la misma secuencia.
La evolución del estado en la secuencia debe depender de alguna combinación del estado actual y la acción tomada, y también puede ser estocástico.
Debe haber una señal de recompensa que el agente de RL pueda observar o medir. El valor de la recompensa debe depender de los mismos factores que la evolución del estado, pero puede depender de ellos de una manera diferente.

El caso general de la predicción de series de tiempo puede ajustarse a esto tratando la predicción como la acción, haciendo que la evolución del estado dependa solo del estado actual (más aleatoriedad) y la recompensa basada en el estado y la acción. Esto permitirá que se aplique RL, pero la causalidad solo fluye de una manera: del entorno a su modelo predictivo. Como tal, lo mejor que puede hacer para obtener recompensas, por ejemplo, es usar alguna métrica sobre la exactitud de las predicciones. Las consecuencias de las predicciones buenas o malas no afectan el entorno original. Esencialmente, terminará envolviendo algún modelo predictivo para la secuencia (como una red neuronal) en una capa RL que podría reemplazarse fácilmente por el manejo de conjuntos de datos básicos para un problema de aprendizaje supervisado.

Una forma en que podría extender significativamente los problemas de pronóstico de series a los problemas de RL es aumentar el alcance del entorno para incluir las decisiones tomadas en función de las predicciones y el estado de los sistemas afectados por esas decisiones. Por ejemplo, si está prediciendo los precios de las acciones, incluya su cartera y fondos en el estado. Asimismo las acciones dejan de ser predicciones, convirtiéndose en comandos de compra y venta. Esto no mejorará el componente de predicción de precios (y probablemente sea mejor tratarlo como un problema separado, utilizando herramientas más apropiadas, por ejemplo, LSTM), pero enmarcará el problema en general como un problema de RL.

— Neil Slater
fuente