=====================================================
量化交易中的强化学习
=====================================================

强化学习
======================
Different from supervised learning tasks such as classification tasks and regression tasks. Another important paradigm in machine learning is Reinforcement Learning(RL), 
它试图通过直接与环境交互来优化累积的数值奖励信号，基于马尔可夫决策过程(MDP)等假设。

如下图所示，一个强化学习系统包含四个要素：1)智能体 2)智能体交互的环境 3)智能体遵循的策略以对环境采取行动 4)环境反馈给智能体的奖励信号。
通常，智能体能够感知并解释其环境，采取行动并通过奖励学习，以寻求长期和最大的总体奖励，从而实现最优解。

.. image:: ../../_static/img/RL_framework.png
   :width: 300
   :align: center 

强化学习通过试错来学习产生行动。
通过采样行动并观察哪些行动能带来期望结果，最终获得生成最优行动的策略。
与监督学习不同，强化学习不是从标签中学习，而是从一个称为奖励的延时标签中学习。
这个标量值让我们知道当前结果是好是坏。
简而言之，强化学习的目标是采取行动以最大化奖励。

Qlib强化学习工具包(QlibRL)是面向量化投资的强化学习平台，为在Qlib中实现强化学习算法提供支持。


量化交易中的潜在应用场景
=======================================================
强化学习方法已在多种应用中展现出卓越成就，包括游戏博弈、资源分配、推荐系统、市场营销和广告投放。
在涉及连续决策的投资领域，以股票市场为例。投资者通过各类买卖行为有效管理持仓与股票组合，力求实现投资收益最大化。
此外，投资者在每次买卖决策前都会审慎评估市场状况和个股信息。从投资者视角看，这一过程可视为与市场互动驱动的连续决策过程。强化学习算法为解决此类挑战提供了可行方案。
以下是强化学习在量化投资中具有应用潜力的若干场景。

订单执行
---------------
The order execution task is to execute orders efficiently while considering multiple factors, including optimal prices, minimizing trading costs, reducing market impact, maximizing order fullfill rates, and achieving execution within a specified time frame. RL can be applied to such tasks by incorporating these objectives into the reward function and action selection process. Specifically, the RL agent interacts with the market environment, observes the state from market information, and makes decisions on next step execution. The RL algorithm learns an optimal execution strategy through trial and error, aiming to maximize the expected cumulative reward, which incorporates the desired objectives.

 - 通用设定
    - 环境：环境代表执行订单的金融市场，包含订单簿动态、流动性、价格波动和市场状况等变量。

    - 状态：状态指RL智能体在特定时间步可获取的信息，通常包括当前订单簿状态（买卖价差、订单深度）、历史价格数据、历史交易量、市场波动率及其他有助于决策的相关信息。

    - 动作：动作是RL智能体基于观察状态做出的决策。在订单执行中，动作可包括选择订单规模、价格和执行时机。

    - 奖励：奖励是反映RL智能体动作在环境中表现的标量信号。奖励函数设计旨在鼓励实现高效且经济的订单执行，通常需兼顾多重目标：最大化价格优势、最小化交易成本（含手续费和滑点）、降低市场冲击（订单对市场价格的影响）以及最大化订单成交率。

 - 应用场景
    - 单一资产订单执行：专注于执行特定资产（如股票或加密货币）的单一订单任务，核心目标是在考虑价格优势最大化、交易成本最小化、市场冲击降低和实现高成交率等因素的前提下高效执行订单。RL智能体与市场环境交互，就该特定资产的订单规模、价格和执行时机做出决策，目标是学习该单一资产的最优执行策略，在考虑资产特定动态和特性的同时最大化预期累积奖励。

    - 多资产订单执行：将订单执行任务扩展至涉及多种资产或证券，通常需要同时或顺序执行跨资产的投资组合订单。与单一资产执行不同，其重点不仅在于单个订单的执行，还需管理组合内不同资产间的交互与依赖关系。RL智能体需在考虑资产相互依赖性、现金约束、市场条件和交易成本的前提下，为组合中每项资产决策订单规模、价格和时机，目标是学习能平衡各资产执行效率，同时兼顾整体组合表现与目标的优化执行策略。

具体设定和RL算法的选择取决于任务需求、可用数据及预期性能目标。

投资组合构建
----------------------
Portfolio construction is a process of selecting and allocating assets in an investment portfolio. RL provides a framework to optimize portfolio management decisions by learning from interactions with the market environment and maximizing long-term returns while considering risk management.
 - 通用设定
    - 状态：状态反映当前市场与投资组合信息，通常包括历史价格与成交量、技术指标及其他相关数据。

    - 动作：动作对应将资金分配到组合中不同资产的决策，决定各资产的投资权重或比例。

    - 奖励：奖励是评估投资组合表现的指标，可通过多种方式定义，如总回报、风险调整后收益，或其他目标如最大化夏普比率或最小化回撤。

 - 应用场景
    - 股票市场：RL可用于构建股票组合，智能体学习在不同股票间分配资金。

    - 加密货币市场：RL可应用于构建数字货币组合，智能体学习进行资产配置决策。

    - 外汇市场：RL可用于构建货币对组合，智能体基于汇率数据、经济指标等因素学习在不同货币间分配资金。

同样，基础设定和算法的选择取决于问题的具体需求及市场特性。