机器学习系列（1）：使用深度强化学习模型探索因子构建范式

上传人：1*** IP属地：北京上传时间：2024-04-15 格式：DOCX 页数：60 大小：1.02MB 积分：20 举报 版权申诉

已阅读5页，还剩55页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

证券研究报告证券研究报告2024.04.07机器学习系列（1）：使用深度强化学习模型探索因子构建范式xiaoxiao.zhou@cicc.wencai3.zheng@cicc.c强化学习模型作为机器学习模型的重要分支在各领域应用广泛，从AlphaGo到ChatGPT均不乏其身影。在金融领域强化学习同样具备无需独立同分布假设等优势。本文结合强化学习和特征提取的结构生成的选股因子在多个股票池中均取得良好选股表现，且模型表现对参数敏感性较低，样本外稳定性高。为什么在量化中尝试强化学习模型作为机器学习重要的发展分支之一，不论是在近几年讨论度较高的LLM大语言模型还是在围棋领域战胜世界冠军的AlphaGo中都不乏强化学习的身影。强化学习已被证实在不同应用场景下对多种任务都有较好表现。我们认为强化学习在金融领域特别是量化策略中可能将具有良好效果，主要出于强化学习模型以下四个特点：1.适合处理序列决策任务；务；2.输入数据无需遵从独立同分布的假设；3.通过与环境交互探索来不断优化当前策略；4.数据无需具备标签。因子构建的本质：数据与操作符的有机结合数据+操作符：因子挖掘的过程本质上属于寻找数据与操作符的结合方式，挖掘方式可以被分为人工挖掘或模型挖掘两种。我们在之前的一系列因子手册中展示的因子均为通过一定逻辑采用人工构建的方式得到。而通过人工构建的方式在确定性上虽然比机器更高，但效率理论上来说远不及机器学习模型。特征提取模块+强化学习模型：为寻求机器挖掘因子的高确定性，我们通过结合强化学习模型和特征提取模块，构建了包含6个常见日度价量特征的数据集，并定义了22个操作符算子和19个常数算子的数据集合。特征提取模块将主要通过对因子表达式进行线性或非线性方法提取特征，强化学习模型则主要负责学习如何将数据特征和操作符以及常数算子有机结合起来，高效寻找合理因子范式。TRPO样本外稳定性较高在我们的测试框架下，强化学习模型在样本外的表现均明显优于作为比较基准的遗传算法和传统机器学习方法。其中TRPO_LSTM和A2C_Linear两种组合方案在中证1000范围回测结果表现突出：ICIR约为0.90，样本外超额夏普均超过1.1，并且在今年年初市场快速回撤环境下表现仍然平稳。相比之下，两组对照方法的收益净值曲线在今年年初出机器学习模型的稳定性也一直是投资者关注的重点之一。我们分别固定强化学习模型和特征提取模块，统计合成因子在样本外回测的ICIR及超额收益的平均表现。实验结果表明，TRPO、A2C和PPO模型参与因子范式挖掘得到的合成因子具有较为稳定的ICIR表现，均超过0.80。特征提取模块中，Transformer参与组合的模型输出的因子具有相对最好的ICIR表现，达到0.79。TRPO相对稳定的模型结构解释：1）相较于其他强化学习模型，TRPO使用了信任域优化的方法，通过限制策略更新的步幅，确保策略改进过程的平滑和稳定。2）TRPO在每次更新时会自适应地调整学习率来保持策略更新在信任域内，因此其对学习率参数不是特别敏感。3）TRPO优化的目标函数使用了广义优势估计（GAE）来估计策略梯度，并且结合了值函数的估计来减小方差，该设计使其对于奖励函数中的噪声和估计误差敏感性降低。风险提示：模型基于历史数据构建，未来可能存在失效风险。更多作者及其他信息请见文末披露页1量化领域下的强化学习 4为什么选择强化学习 4强化学习在金融领域中的应用 5如何寻找因子的构建范式 7因子构建本质：数据与操作符的有机结合 7测试框架：特征提取+强化学习 11TRPO+LSTM：兼顾收益与稳定 14回测结果：TRPO+LSTM样本外表现更优稳定性高 14算法对比：强化学习性能与透明度更优 20模型的参数敏感度分析 21附录 24因子合成模块的损失函数及其推导 24特征提取模块和强化学习模型 25图表1：强化学习模型示意图 5图表2：强化学习发展历史 5图表3：FinRL整体框架 6图表4：StockFormer整体框架 6图表5：数据与操作符的结合方式逆波兰表达式........................................................................................................7图表6：马尔可夫决策过程示意图 8图表7：强化学习因子挖掘框架 9图表8：强化学习与深度学习和遗传算法的比较 10图表9：算子定义表 11图表10：强化学习主流方法各项特点对比 12图表11：特征提取模块和强化学习模型组合，前者负责提取因子表达式的抽象特征 12图表12：强化学习模型在因子范式挖掘任务上的共性参数定义 13图表13：强化学习模型输出因子在中证1000范围全样本月度回测的有效性检验结果 14图表14：中证1000范围内表现较好的强化学习模型合成因子的年化多空收益统计（全样本） 15图表15：中证1000范围内表现较好的强化学习模型合成因子的超额收益统计（全样本） 15图表16：A2C_Linear模型因子与常见因子相关系数 15图表17：中证1000范围内表现较好的强化学习模型输出的合成因子分组年化超额收益统计（全样本） 15图表18：强化学习和特征提取模块组合模型的合成因子在中证1000范围样本外月度回测的有效性检验结果 16图表19：中证1000范围内表现较好的强化学习模型合成因子的年化多空收益统计（样本外） 16图表20：中证1000范围内表现较好的强化学习模型合成因子的超额收益统计（样本外） 16图表21：中证1000范围内表现较好的强化学习模型合成因子的年化多空收益稳定性统计（样本外） 17图表22：中证1000范围内表现较好的强化学习模型合成因子的超额收益稳定性统计（样本外） 17图表23：TRPO_LSTM模型合成因子与常见因子相关系数 17图表24：中证1000范围内表现较好的强化学习模型输出合成因子的分组年化超额收益统计（样本外） 17图表25：TRPO_LSTM模型因子池中表现较好因子的表达式及合成权重 172图表26：强化学习模型输出因子在全市场范围样本外月度回测的有效性检验结果 18图表27：全市场范围内表现较好的强化学习模型输出合成因子的年化多空收益统计（样本外） 18图表28：全市场范围内表现较好的强化学习模型输出合成因子的超额收益统计（样本外） 18图表29：全市场范围内表现较好的强化学习模型合成因子的年化多空收益稳定性统计（样本外） 19图表30：全市场范围内表现较好的强化学习模型合成因子的超额收益稳定性统计（样本外） 19图表31：PPO_Linear模型因子与常见因子相关系数 19图表32：全市场范围内表现较好的强化学习模型输出的合成因子分组年化超额收益统计（样本外） 19图表33：强化学习模型（部分）及对照方法合成因子在中证1000范围样本外月度回测的有效性检验结果 20图表34：中证1000范围合成因子年化多空收益统计 20图表35：中证1000范围合成因子年化超额收益统计 20图表36：强化学习和遗传算法因子池中表现较好的因子在中证1000范围样本外回测的IC_IR统计 21图表37：强化学习和遗传算法因子池中表现较好的因子在中证1000范围样本外回测的超额收益统计 21图表38：因子表现对强化学习模型敏感度 22图表39：因子表现对特征模块的敏感度 22图表40：TRPO_LSTM模型主要参数设置及影响分析 23图表41：TRPO_LSTM模型样本外表现随因子池规模变化的趋势 23图表42：TRPO_LSTM模型样本外表现随学习率变化的趋势 23图表43：TRPO_LSTM模型样本外表现随单次更新中步数大小变化的趋势 23图表44：TRPO_LSTM模型样本外表现随batch_size数量变化趋势 233量化领域下的强化学习作为机器学习重要的发展分支之一，不论是在近几年讨论度较高的LLM大语言模型还是在围棋领域战胜世界冠军的AlphaGo中都不乏强化学习的身影。强化学习已被证实在不同应用场景下对多种任务都有较好表现。我们在使用传统统计模型和机器学习模型时，经常容易忽略的一点就是关于数据的假设。例如对于线性回归、逻辑回归、朴素贝叶斯以及KNN等机器学习模型来说，一个基础的假设就是输入数据需要服从独立同分布。而对于金融数据来说，独立同分布很多时候都是一个过于严格的前提。►时间相关性：金融数据通常是时间序列数据，相邻时间点的数据之间可能存在相关性。例如，股票价格在短时间内可能会呈现出一定的自相关性或者相关性结构。►波动性聚集：金融市场中的波动通常会出现波动性聚集（volatilityclustering）的现象，即波动性的大幅度变化往往会聚集在一起，而不是均匀分布。这意味着金融数据的波动性即波动性的大幅度变化往往会聚集在一起，而不是均匀分布。这意味着金融数据的波动性不是独立同分布的。►异方差性：金融数据中常见的异方差性（heteroscedasticity）表现为不同时间点的数据具有不同的方差。这违反了独立同分布的假设，因为方差并不是恒定的。►非正态分布：许多金融数据并不遵循正态分布，而是具有偏态、厚尾或者其它非正态的分布特征。由于这些特殊性质存在，我们将金融数据应用在使用机器学习或深度学习模型时，需要谨慎考虑其适配性，而不是强行将数据直接输入模型中。但强化学习则不需要输入数据满足这一要求。此外强化学习通过与环境交互进行试错探索，进而对当前策略进一步优化的模式与量化策略的更新迭代也有诸多相似之处。我们认为强化学习在金融领域特别是量化策略中可能将具有良好效果，主要出于强化学习模型以下四个特点：1.适合处理序列决策任务；2.输入数据无需遵从独立同分布的假设；3.通过与环境交互探索来不断优化当前策略；4.数据无需具备标签。我们从强化学习的基本原理开始。以AlphaGo训练为例，它主要是通过不断进行下棋的尝试，以获得足够多成功或者失败的经验，从而不断地进行策略的优化。结合强化学习的示意图：AlphaGo对标强化学习中的智能体；它进行下棋尝试的棋盘就是示意图中的环境；每次棋局，AlphaGo落子前棋面的情况，即环境传递给智能体的状态（stAlphaGo落子的位置对应示意图中智能体传递回环境的动作（at）；棋局结束时AlphaGo成功或失败的结果对应着示意图中环境反馈给智能体的奖励r；每一轮棋局称作一个回合（Episode）；回合中包含的落子次数称作当前回合的步长（Step）。由此，可以得到强化学习的定义为：智能体学习如何在复杂、不确定的环境下优化策略使奖励最大化。4图表1：强化学习模型示意图资料来源：“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等（2023中金公司研究部强化学习模型作为机器学习的重要分支近年来发展迅速。2015年由DeepMind研究专家提出的DQN模型，首次将深度学习与Q学习算法相结合，成功地在多个Atari游戏中表现超越了人类水平；2016年以其为核心的AlphaGo在更复杂的围棋比赛中，战胜了世界围棋冠军李世石。2022年，OpenAI参照强化学习的范式通过对大语言模型ChatGPT进行了微调（RLHF）将人工智能带入了新的阶段。目前，强化学习已经在许多领域中得到了实际应用，其中在金融领域的订单执行、市场做市以及投资组合优化等任务中都取得了成功的探索。图表2：强化学习发展历史2018年2022年2018年2022年2016年1989年OpenAI参照强化学习的范式通过对大语言模型Chatgpt进行微调（RLHF）SAC算法TD3算法Q-OpenAI参照强化学习的范式通过对大语言模型Chatgpt进行微调（RLHF）SAC算法TD3算法Q-learning算法AlphaGo击败李世石DDPG算法算法OpenAI的AI系统战胜Dota2职业选手1994年2015年TRPO算法1994年2015年TRPO算法A3C算法2019年AlphaStar诞生…SARSA算法PPOSARSA算法AlphaZero诞生资料来源：Wind，中金公司研究部在金融领域方面，目前较为成熟的应用包括资产配置/资产管理任务。例如，Liu等人在2021年提出的FinRL框架1，首次将前沿的强化学习算法系统的应用到了资产配置任务中，并开源了对应的算法框架；Gao等人在2023年基于FinRL提出的StockFormer模型2,结合了预测编码良好的建模能力和强化学习策略灵活性的优势，优化交易策略。与传统的强化学习方案不同，该模型借助Transformer模型显式考虑了未来趋势和不同投资资产之间的相关性。此外，也有少量研究在因子挖掘及合成任务上取得了突破性的进展3。FinRL:Deepreinforcementlearningframeworktoautomatetradinginquantitativefinance.StockFormer:Learninghybridtradingmachineswithpredictivecoding.“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等（2023）.5图表3：FinRL整体框架资料来源：“FinRL:DeepReinforcementLearningFrameworktoAutomateTradinginQuantitativeFinance.”XiaoyangLiu等（2021中金公司研究部图表4：StockFormer整体框架资料来源：“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等（2023中金公司研究部6如何寻找因子的构建范式本文利用强化学习模型来寻找有效的因子构建范式，因子构建范式具体指代包含量价等数据特征和数学操作符的因子表达公式。在实际操作中，我们使用树结构来表示因子范式：非叶节点代表操作符，节点的子节点代表操作数，本文将每个节点称为算子（token），并借助逆波兰表达式的思想将树结构保存为其后序遍历的序列，有效发挥了逆波兰表达式不含歧义，以及易于被计算机程序解析和计算的优势。与直接预测收益率任务相比，该任务具有更好的解释性。图表5：数据与操作符的结合方式--逆波兰表达式注：(A)因子范式的示例；(B)因子范式对应的树结构；(C)使用逆波兰表示法（RPN）的结果，其中BEG和SEP表示序列指示符；(D)在一个示例时间序列上逐步计算这个Alpha因子资料来源：“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等（2023中金公司研究部强化学习模型的数学基本框架为马尔可夫决策过程（MDP），它共包含五个核心元素：(S,A,T,R,γ)，其目标为最大化每一个回合累计奖励值，公式如下，其中P表示当前回合的总步长，τ表示一个轨迹（或回合即智能体从开始到结束在环境中经历的一系列状态、动作和奖励的序列，π表示策略，策略是从状态到动作的映射，定义了智能体在给定状态下选择动作的概率分布，形式上，策略π(a|s)表示在状态s下选择动作a的概率。Gt=Eτ~π[∑=1yt−1rt]7对因子构建范式挖掘任务，每个元素的定义如下：►S表示可观测的数据集合（强化学习示意图中的状态st集合定义为t时刻下的逆波兰表达式序列，固定为“BEG”标识符开始。考虑到因子的可解释性，以及公式过长带来的解释性降低，我们将公式的长度阈值（max_expr_length）限制在20个算子以内。具体实现方面，我们对所有算子（图表9）使用整数编码进行标识，利用离散的编码构建表达式序列。►A表示动作集合(强化学习示意图中的动作at集合)，定义为合法的候选算子（包括操作数或操作符，需要根据当前序列筛选有效的算子）。当因子范式包含的算子数量超过提前设置好的阈值（max_expr_length）或当前选择的动作为结束符“SEP”，当前回合结束。►T表示状态转移概率方程T(st+1|st,at)，表示采取动作at加入表达式序列后的因子范式。►R表示奖励函数（强化学习示意图中的Tt可以根据预期的策略进行针对性的设计。本文的任务本质是一个稀疏函数的马尔可夫决策过程，对于尚未完全形成的序列，环境不提供即时奖励。只有在回合结束时且因子范式有效的情况下，才会进行表达式解析，因子回测等后续操作。我们首先将当前因子与历史挖掘到的有效因子进行合成，而后回测合成因子的IC值，将其作为强化学习模型奖励值，而无效的因子范式则统一设置-1的奖励值。►γ表示折扣因子，值域为(0,1)，表示对未来奖励值打折扣。当折扣因子为0时，智能体只关注当前的奖励；当其值为1时，表示对未来的奖励并没有打折扣，未来获得的奖励与当前的奖励是一样的。考虑对因子范式长度没有特别的需求，我们将折扣因子设置为γ=1。图表6：马尔可夫决策过程示意图资料来源：“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等（2023中金公司研究部模型架构层面，本文将多因子挖掘任务及因子合成任务使用串联的形式集成到端到端的强化学习框架内，发挥其强大的探索能力。具体来说，框架主要包含基于强化学习的Alpha生成器和Alpha组合模型两个模块。Alpha生成器的主要作用为挖掘因子范式，并将有效的因子范式加入到因子池中，赋予随机的合成权重。随后Alpha组合模型采用梯度下降的优化方式对因子池中的因子进行线性组合，优化各自权重。我们对组合模型输出的因子进行回测，将IC结果用作奖励信号，以训练基于策略梯度算法的Alpha生成器中的强化学习策略。采用这样的训练架构和流程，能促使Alpha生成器在重复的训练和优化中产生提升组合模型的因子，从而增强整体的预测能力。此外，我们设置了一个阈值（pool_size）来限制因子池的大小，仅保留具有最大绝对权重的主要因子。如果扩展集合中的因子数量超过了这一阈值，权重最小的非主要因子将连同其对应的权重一起从集合中移除。8*L(W)=1/n(-2***强化学习策略损失函数梯度下降算法掩码分类分布扩展ICs&IC相关系数矩阵&权重…特征选取采样…SEP■■■■Tokens或…注：(A)一个生成表达式的Alpha生成器，通过策略梯度算法进行优化。(B)一个维护主要因子加权组合的组合模型，同时提供评估信号以指导生成器。资料来源：“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等（2023*L(W)=1/n(-2***强化学习策略损失函数梯度下降算法掩码分类分布扩展ICs&IC相关系数矩阵&权重…特征选取采样…SEP■■■■Tokens或…注：(A)一个生成表达式的Alpha生成器，通过策略梯度算法进行优化。(B)一个维护主要因子加权组合的组合模型，同时提供评估信号以指导生成器。资料来源：“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等（2023中金公司研究部Alpha生成器包含两个核心模块：强化学习模块和特征提取模块。►强化学习模块：考虑到本文任务为挖掘因子范式，建模的马尔可夫决策过程中使用了定义在离散空间的动作集合，且每一次新的动作采取需要根据当前序列筛选合法的算子，因此我们主要考虑了采用Actor-critic架构的强化学习模型和Maskable（遮罩）机制。Actor-critic框架：主要包含一个价值网络（valuenetwork）和一个策略网路（policynetwork），其中价值网络负责评估当前强化学习策略的好坏，通常通过估计价值函聚合模型聚合模型IC股价评估表达式数来实现；而策略网路负责选择动作，即直接对策略进行参数化。策略网络输出动作的概率分布，从中可以采样以决定下一步要采取的动作。Maskable机制：能够在每个时间步过滤掉非法行动，只保留合法的行动供策略选择。这样做可以确保生成的序列始终符合逆波兰表达式的语法要求。►特征提取模块：特征提取模块主要负责将离散的算子序列也即因子表达式转换为连续的抽象表征，以作为强化学习网络模块的输入。强化学习模型的价值网络和策略网路共享一个输入特征的提取模块。考虑到合成因子环节的可解释性，本文仅采用传统的线性组合方案，并未引入其他机器学习/深度学习的方法，因而该模块的技术细节在此不做过多赘述，损失函数的含义及推导过程详见附深度强化学习作为深度学习的重要分支，常和其他深度学习模型比较。与深度学习和遗传算法有一些类似之处，但在不同的场景下具备其独特的优势。9图表8：强化学习与深度学习和遗传算法的比较学习机制强化学习通过与环境互动来学习最优策略深度学习通过大量数据学习特征表示遗传算法通过模拟自然选择和遗传机制优化问题的解主要目标最大化长期累积奖励从数据中学习预测模型寻找问题的最优解或足够好的解决策方式序列决策（考虑长期影响）单步决策（基于当前输入做出预测）基于种群的迭代搜索反馈类型延迟反馈（奖励），可以处理稀疏和时变的信号立即反馈，需要大量标签数据间接反馈，适者生存原则指导搜索环境适应性能够适应和学习动态变化的环境需要固定的数据分布，变化的环境可能需要重新训练可以适应一定范围的环境变化，但可能需要重新运行算法探索与利用内建探索/利用权衡，能够探索新策略同时利用已知策略侧重于利用已有数据进行学习通过随机变异和选择探索解空间数据效率可以通过探索和利用机制高效使用数据，通过近似值函数或策略函数来加速学习过程需要大量数据进行有效训练不需要训练数据，通过生成和选择过程自然地探索解空但在搜索空间较大时可能会面临搜索效率低下的问题在线/离线学习可以在线学习和适应，也能进行离线训练主要是离线训练，需要大量数据集主要是离线过程，每一代个体通常需要全面评估可解释性可以构建可解释的策略深层网络的决策过程往往不够透明解的结构和进化过程可以提供一定程度的可解释性实时性可以实时地调整策略以响应环境变化对实时性支持有限，对新数据的适应通常需要重新训练不专注于实时决策，更关注于长期解的优化适应及泛化能力强化学习模型能够适应环境变化并泛化到新情况模型泛化能力取决于训练数据的多样性和质量泛化能力有限，侧重于特定问题的解资料来源：“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等（2023Wind，中金公司研究部►透明度：算法决策过程的可解释性和可理解性强化学习：透明度取决于所采用的模型和策略复杂性。例如，基于表格的方法相对透明，采用深度网络结构的强化学习方法的透明度较低。在本文的因子范式挖掘任务，强化学习表现出了良好的可解释性。深度学习：可解释性通常较低，深度学习：可解释性通常较低，尤其是在深层神经网络中，其决策过程被认为是一个“黑盒”，难以解释和理解。遗传算法：相对于深度学习，遗传算法在透明度上表现更好。尽管其搜索过程可能复杂，但是算法的运作原理（选择、交叉、变异）相对容易理解。►效率：算法达到目标所需的资源（如时间、算力）强化学习：效率可能因任务而异，对于复杂环境和策略，可能需要大量的交互和数据来学习有效的策略，影响效率。实验结果表明强化学习在因子范式搜索任务上具有较高的搜索效率。深度学习：在拥有充足标注数据和计算资源的情况下，深度学习可以较为高效地处理大规模数据集。但训练深度模型通常计算密集且耗时。遗传算法：虽然遗传算法不需要训练数据，但通常需要大量的迭代和评估才能收敛到好的解，这可能导致效率较低。►稳定性：算法输出的一致性和对输入扰动的稳定性强化学习：稳定性可能受到探索策略和学习率的影响，环境的变化或初始化的不同可能导致学习结果的显著差异。深度学习：在相同条件下，深度学习模型通常能够给出一致的预测结果。但是，它们可能对数据分布的改变和输入扰动敏感。遗传算法：稳定性取决于种群的多样性和进化过程的设计。结果可能在不同运行间有所变化，但通常可以通过足够的迭代次数找到稳定解。资料来源：Wind，中金公司研究部资料来源：Wind，中金公司研究部数据集按照2015/01/05-2018/12/31、2019/01/02-2020/12/31、2021/01/04-2024/03/01三个区间被依次划分为训练集、验证集和测试集。我们利用验证集筛选模型参数，并在测试集上比较模型的表现。本文特别考虑了使用全历史股票池范围可能存在的数据泄露问题。在使用训练集评估因子表达式的IC均值时，我们只考虑了当期截面上有效的成分股范围，并未引入任何未来的成分股数据以干扰因子评估的准确性。本文使用中证1000指数成分股的历史数据对模型进行训练，将其6个常见的日度价量特征作为强化学习模型所需的特征算子。此外，操作符算子包括截面运算符（一元运算符和二元运算符）和时序运算符（如均值和标准差）共22个，以及常数算子包括截面常数14个和时序常数图表9：算子定义表子类具体定义算子类别子类具体定义本文所定义的强化学习任务具有离散型的动作空间，我们选择了与之适配的PPO、TRPO和A2C模型，以及常用于连续型动作空间下的SAC模型（对连续型动作空间进行离散化处理），并将上述四个模型与四类不同的特征提取模块LSTM、GRU、Transformer和Linear分别进行组合。考虑到强化学习模型本身存在的随机性，上述组合均使用三个不同的随机数对模型参数初始化并进行训练。本文测试提及的强化学习和特征提取模块较多，各类模型都具有独特的应用场景和特点，我们将具体模型介绍置于附录部分便于参考，下表为主流强化学习模型的各项特点对比，我们在后续的测试中也同样能寻找到与模型特点吻合的测试结果。SAC···Linear图表10：强化学习主流方法各项特点对比SAC···Linear资料来源：“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等（2023Wind，中金公司研究部由于强化学习模型无法直接读取离散形态的因子表达式，因此在本模型结构中特征提取模块将主要通过对因子表达式进行线性或非线性方法提取特征，强化学习模型则主要负责学习如何将数据特征和操作符以及常数算子有机结合起来，寻找到合理的特征与操作符结合的策略。图表图表11：特征提取模块和强化学习模型组合，前者负责提取因子表达式的抽象特征因子表达式(a+b)*2-c(a*b)^2/cmax(a-b,0)强化学习特征提取模块TransformerTRPOLSTMGRUPPOA2C资料来源：Wind，中金公司研究部为了验证深度强化学习模型在因子挖掘任务上的有效性，本文同时考虑了在因子范式构建任务上具有广泛应用的遗传算法（SymbolicRegression模型）和传统机器学习方法代表XGBoost，并将以上两组模型设为对照组。由于XGBoost的架构并不适用于因子范式挖掘任务，我们使用日度价量特征作为模型输入，将模型的优化目标定义为全市场股票20交易日后的收益率。上述所有模型均可在一张GeForceRTX3080Ti上完成训练，模型代码均由基于Pytorch的开源三方库实现。强化学习模型在因子范式挖掘任务上的共性参数有如下定义（模型超参定义详见第三章）：图表12：强化学习模型在因子范式挖掘任务上的共性参数定义参数名称参数含义参数取值1资料来源：Wind，中金公司研究部本文对模型输出的因子采用IC检验和分组回测检验，展示不同因子的有效性水平。我们将对各个模型多次训练后输出的因子分别在中证1000和全市场范围内进行IC检验与分组回测检验，分析不同模型在测试集上收益率预测的稳定性、单调性、有效性和与其他常见因子的相关性。其中因子测试框架如下：►全样本测试区间：2015.01.02–2024.03.01；样本外测试区间：2021.01.04–2024.03.01►►股票池：全市场、中证1000中剔除ST、停牌、一字板和上市未满一年股票►换仓频率：月度，并在每月第一个交易日换仓►分组回测组数：按照因子值由小到大的顺序将股票池等分为10组使用多种指标展示因子的有效性水平。在IC检验中，我们使用IC均值、ICIR绝对值等指标展示因子暴露与下期收益率的秩相关性，反映因子对收益率的预测能力。在分组回测中，使用多头年化收益率、多头年化超额收益率、多头超额最大回撤等指标展示多头组合的选股能力。5.73%5.34%5.32%6.20%0.760.710.695.94%A2C_LinearA2C_TransformerTRPO_LSTMTRPO_TransformerA2C_GRUA2C_LSTMTRPO_LinearTRPO_GRUSAC_LinearSAC_LSTM强化学习算法和特征提取模块组合后输出的合成因子在全样本范围中取得较好回测表现的有A2C_Linear,A2C_Transformer,PPO_Transformer,TRPO_LSTM和TRPO_Transformer。其中，A2C_Linear模型全样本表现较好，ICIR为0.95，超额收益和超额夏普分别为10.53%和1.94，且与常见的相关因子的截面相关性较小。此外，与Transformer模块组合后表现较好的三种强化学习模型，它们的合成因子在全样本的ICIR均超过了0.80，多空收益稳定在23%以上，超额收益的平均表现超过7%。上述方法分组年化超额收益均具有良好的单调性。图表13：强化学习模型输出因子在中证1000范围全样本月度回测的有效性检验结果模型股票池多头收益多头换手多空收益超额收益超额夏普超额回撤注：1）样本区间为2015-03-01至2024-03-01；2）强化学习及遗传算法模型均使用不同随机数初始化参数进行3次训练，获取平均结果资料来源：Wind，中金公司研究部A2C_LinearA2C_TransformerPPO_TransformerTRPO_LSTMTRPO_TransformerBP_LRTURNOVER_1MROE_TTMVSTD_1MA2C_LinearA2C_TransformerPPO_TransformerTRPO_LSTMTRPO_TransformerBP_LRTURNOVER_1MROE_TTMVSTD_1M图表14：中证1000范围内表现较好的强化学习模型合成因子的年化多空收益统计（全样本）A2C_Linear A2C_TransformerPPO_TransformerTRPO_LSTMTRPO_Transformer2.90.9资料来源：Wind，中金公司研究部图表15：中证1000范围内表现较好的强化学习模型合成因子的超额收益统计（全样本）2.10.9A2C_Linear A2C_TransformerPPO_TransformerTRPO_LSTMTRPO_Transformer资料来源：Wind，中金公司研究部图表16：A2C_Linear模型因子与常见因子相关系数图表17：中证1000范围内表现较好的强化学习模型输出的合成因子分组年化超额收益统计（全样本）EP_TTMEP_TTMLn_MCNP_ZMomentum_1M因子截面相关性IC相关性group0group1group2group3group4group5group6group7group8group95%0%-5%-10%-15%-20%注：1）统计时间为2015-03-01至2024-03-01；2）强化学习均使用不同随机数初始化参数进行3次训练，获取平均结果；3）相对净值的比较基准为中证1000成分股等权资料来源：Wind，中金公司研究部注：1）统计时间为2015-03-01至2024-03-01；2）强化学习均使用不同随机数初始化参数进行3次训练，获取平均结果；3）超额收益的比较基准为中证1000成分股等权；3）Group0为因子值最小一组，Group9为因子值最大一组资料来源：Wind，中金公司研究部A2C_Linear或存在过拟合，样中证1000数据集样本外回测结果中表现突出的组合方案是TRPO_LSTM模型。其输出的合成因子IC均值为6.35%，多空收益为22.99%，具有7.83%的超额收益以及1.56的超额夏普率。与全样本表现较好的A2C_Linear模型相比，通过多次随机数初始化参数训练得到的TRPO_LSTM方法在样本外具有更好的平均表现和稳定性。此外，在与常见因子相关系数的计算中，该因子的截面相关性均保持在0.5以内。图表18：强化学习和特征提取模块组合模型的合成因子在中证1000范围样本外月度回测的有效性检验结果模型股票池IC均值|IC_IR|多头收益多头换手多空收益超额收益超额夏普超额回撤TRPO_LSTM10006.35%0.906.99%59.60%22.99%7.83%1.564.36%TRPO_Transformer10005.92%0.903.59%60.78%16.27%4.40%0.916.27%A2C_Linear10006.08%0.894.51%57.56%17.22%5.32%1.146.09%A2C_Transformer10005.79%0.873.08%55.37%15.21%3.89%0.816.00%PPO_Transformer10006.10%0.853.07%60.29%17.21%3.87%0.825.74%PPO_Linear10005.84%0.842.55%61.79%17.83%3.35%0.715.22%A2C_GRU10005.39%0.843.33%55.15%17.71%4.14%0.855.96%TRPO_GRU10005.70%0.824.70%58.60%18.09%5.51%1.075.61%A2C_LSTM10005.76%0.813.08%55.61%19.07%3.88%0.776.10%PPO_LSTM10005.53%0.783.02%57.13%15.31%3.83%0.815.17%TRPO_Linear10005.50%0.754.30%54.77%17.70%5.11%0.996.87%PPO_GRU10006.06%0.733.59%57.15%19.75%4.39%0.856.75%SAC_Linear10004.18%0.570.58%50.05%7.02%1.36%0.2711.06%SAC_GRU10003.74%0.542.90%44.42%12.65%3.71%0.747.65%SAC_Transformer10003.89%0.533.04%40.93%10.82%3.84%0.757.79%SAC_LSTM10003.42%0.481.11%39.59%9.29%1.89%0.389.54%注：1）样本区间为2021-03-01至2024-03-01；2）强化学习及遗传算法模型均使用不同随机数初始化参数进行3次训练，获取平均结果资料来源：Wind，中金公司研究部图表20：中证1000范围内表现较好的强化学习模型合成因子的超额收益统计（样本外）图表图表20：中证1000范围内表现较好的强化学习模型合成因子的超额收益统计（样本外）合成因子的年化多空收益统计（样本外）TRPO_LSTMA2C_LinearTRPO_TransformerA2C_TransformerTRPO_LSTMA2C_LinearTRPO_TransformerA2C_TransformerPPO_TransformerA2C_TransformerPPO_Transformer2210.810.810.950.90.850.8资料来源：Wind，中金公司研究部资料来源：Wind，中金公司研究部TRPO_LSTMTRPO_TransformerA2C_LinearA2C_TransformerPPO_TransformerTURNOVER_1MSTD_1MEP_TTMTRPO_LSTMTRPO_TransformerA2C_LinearA2C_TransformerPPO_TransformerTURNOVER_1MSTD_1MEP_TTM图表21：中证1000范围内表现较好的强化学习模型合成因子的年化多空收益稳定性统计（样本外）TRPO_LSTMA2C_Linear2.2210.82021/3/12021/9/12022/3/12022/9/12023/3/12023/9/12024/3/注：1）统计时间为2021-03-01至2024-03-01；2）强化学习均使用不同随机数初始化参数进行3次训练，获取平均结果；3）虚线为3次训练标准差波动；4）相对净值的比较基准为中证1000成分股等权资料来源：Wind，中金公司研究部图表22：中证1000范围内表现较好的强化学习模型合成因子的超额收益稳定性统计（样本外）TRPO_LSTMA2C_Linear10.90.8注：1）统计时间为2021-03-01至2024-03-01；2）强化学习均使用不同随机数初始化参数进行3次训练，获取平均结果；3）虚线为3次训练标准差波动；4）相对净值的比较基准为中证1000成分股等权资料来源：Wind，中金公司研究部图表23：TRPO_LSTM模型合成因子与常见因子相关系数BP_LRVSTD_1MLn_MCROE_TTMLn_MCMomentum_1M图表24：中证1000范围内表现较好的强化学习模型输出合成因子的分组年化超额收益统计（样本外）group0group1group2group3group4group5group6group7group8group95%0%-5%-10%-15%-20%因子截面相关性IC相关性注：1）统计时间为2021-03-01至2024-03-01；2）强化学习均使用不同随机数初始化参数进行3次训练，获取平均结果；3）相对净值的比较基准为中证1000成分股等权资料来源：Wind，中金公司研究部注：1）统计时间为2021-03-01至2024-03-01；2）强化学习均使用不同随机数初始化参数进行3次训练，获取平均结果；3）超额收益的比较基准为中证1000成分股等权；3）Group0为因子值最小一组，Group9为因子值最大一组资料来源：Wind，中金公司研究部图表25：TRPO_LSTM模型因子池中表现较好因子的表达式及合成权重因子表达式权重IC均值注：1）样本区间为2021-03-01至2024-03-01；2）强化学习模型TRPO_LSTM使用单次训练结果；3）回测范围中证1000资料来源：Wind，中金公司研究部注：样本外区间为2021-03-01至2024-03-01，强化学习及遗传算法模型均使用不同随机数初始化参数进行3次训练，获取平均结果我们将在中证1000数据集下训练得到的强化学习模型应用到范围更广的全市场股票域内进行测试发现：TRPO_LSTM模型依然具有较好的回测表现。其ICIR为1.14，多空收益超过了30%，超额收益稳定在8.43%，超额夏普为1.92注：样本外区间为2021-03-01至2024-03-01，强化学习及遗传算法模型均使用不同随机数初始化参数进行3次训练，获取平均结果此外，全市场范围内样本外回测结果表现较好的模型还有PPO_Linear，PPO_Transformer，A2C_Linear和TRPO_Transformer，它们的ICIR表现均稳定在1.0以上，IC均值稳定在7.5%之上，PPO_Transformer模型输出的合成因子具有28.33%的多空收益，而A2C_Linear模型输出的合成因子具有8.14%的超额收益。上述方法在全市场范围内分组年化超额收益依然保持较好的单调性和区分度。图表26：强化学习模型输出因子在全市场范围样本外月度回测的有效性检验结果模型模型股票池IC均值|IC_IR|多头收益多头换手多空收益超额收益超额夏普超额回撤TRPO_LSTM8.32%1.1410.37%59.27%30.96%8.43%1.924.00%PPO_Linear7.88%1.098.28%60.31%26.20%6.37%1.514.68%PPO_Transformer8.10%1.099.58%59.59%28.33%7.65%1.784.65%A2C_Linear7.76%1.0810.08%56.03%27.45%8.14%1.953.68%TRPO_Transformer7.54%1.079.46%59.41%25.91%7.53%1.824.41%A2C_LSTM7.85%7.85%1.031.038.75%8.75%53.97%53.97%26.24%26.24%6.84%6.84%1.561.564.33%PPO_LSTM7.59%7.59%1.021.027.50%7.50%57.58%57.58%24.84%24.84%5.61%5.61%1.331.334.48%SAC_Linear6.12%6.12%1.001.006.76%6.76%49.33%49.33%19.53%19.53%4.89%4.89%4%TRPO_GRU7.24%7.24%0.990.998.55%8.55%56.86%56.86%26.21%26.21%6.64%6.64%1.501.505.26%A2C_A2C_Transformer7.14%7.14%0.980.988.65%8.65%53.46%53.46%23.22%23.22%6.74%6.74%1.651.654.41%A2C_GRU6.89%6.89%0.980.989.00%9.00%54.34%54.34%25.32%25.32%7.09%7.09%1.761.763.65%TRPO_Linear7.63%7.63%0.950.958.66%8.66%53.62%53.62%26.23%26.23%6.75%6.75%1.441.445.86%PPO_GRU8.02%8.02%0.900.907.49%7.49%56.21%56.21%27.63%27.63%5.60%5.60%8%SAC_GRU5.85%5.85%0.890.897.31%7.31%43.12%43.12%21.44%21.44%5.42%5.42%0%SAC_LSTM5.63%5.63%0.840.846.76%6.76%37.43%37.43%21.47%21.47%4.88%4.88%1.071.076.85%SAC_TransformerSAC_Transformer6.10%6.10%0.820.826.90%6.90%38.46%38.46%20.50%20.50%5.02%5.02%1.031.036.30%资料来源：Wind，中金公司研究部图表27：全市场范围内表现较好的强化学习模型输出合成因子的年化多空收益统计（样本外）0.9TRPO_LSTM PPO_LinearPPO_TransformerA2C_LinearTRPO_Transformer资料来源：Wind，中金公司研究部图表28：全市场范围内表现较好的强化学习模型输出合成因子的超额收益统计（样本外） 1.25 1.15 1.05 0.950.9TRPO_LSTM PPO_LinearPPO_TransformerA2C_LinearTRPO_Transformer资料来源：Wind，中金公司研究部TRPO_LSTMPPO_LinearPPO_TransformerA2C_LinearTRPO_TransformerTURNOVER_1M的合成因子分组年化超额收益统计（样本外）TRPO_LSTMPPO_LinearPPO_TransformerA2C_LinearTRPO_TransformerTURNOVER_1M的合成因子分组年化超额收益统计（样本外）图表29：全市场范围内表现较好的强化学习模型合成因子的年化多空收益稳定性统计（样本外）TRPO_LSTMPPO_Linear210.8注：1）统计时间为2021-03-01至2024-03-01；2）强化学习均使用不同随机数初始化参数进行3次训练，获取平均结果；3）虚线为3次训练标准差波动；4）相对净值的比较基准为全市场等权资料来源：Wind，中金公司研究部图表31：PPO_Linear模型因子与常见因子相关系数图表30：全市场范围内表现较好的强化学习模型合成因子的超额收益稳定性统计（样本外）TRPO_LSTMPPO_Linear10.90.8注：1）统计时间为2021-03-01至2024-03-01；2）强化学习均使用不同随机数初始化参数进行3次训练，获取平均结果；3）虚线为3次训练标准差波动；4）相对净值的比较基准为全市场等权资料来源：Wind，中金公司研究部图表32：全市场范围内表现较好的强化学习模型输出BP_LRVSTD_1MEP_TTMEP_TTMLn_MCROE_TTMLn_MCNP_ZMomentum_1Mgroup0group1group2group3group4group5group6group7group8group95%0%-5%-10%-15%-20%因子截面相关性IC相关性注：1）统计时间为2021-03-01至2024-03-01；2）强化学习均使用不同随机数初始化参数进行3次训练，获取平均结果；3）相对净值的比较基准为全市场等权资料来源：Wind，中金公司研究部注：1）统计时间为2021-03-01至2024-03-01；2）强化学习均使用不同随机数初始化参数进行3次训练，获取平均结果；3）超额收益的比较基准为全市场等权；3）Group0为因子值最小一组，Group9为因子值最大一组资料来源：Wind，中金公司研究部算法对比：强化学习性能与透明度更优我们经过试验对比发现强化学习模型在样本外的表现均明显优于遗传算法和机器学习方法。其中TRPO_LSTM和A2C_Linear两种组合方案在中证1000范围内样本外回测的平均结果较为突出：ICIR约为0.90，超额夏普均超过了1.1，并具有累计7.83%和5.32%的超额收益。相比之下，两组对照方法的收益净值曲线在今年年初出现了明显的回撤，超额收益不足2%。以XGBoost为代表的机器学习（深度学习）方法属于“黑盒”模型，模型从输入的量价数据到输出的预测结果过程中缺乏可解释性，且预测结果相比本文的因子范式也缺少一定的透明度。因此当模型性能在样本外下降时，这类模型的优化和调整将成为新的挑战。对于本文所提出的因子范式挖掘及合成任务，实验结果表明强化学习模型相比遗传算法具有更强的搜索效率。当固定因子池的大小为20时，以TRPO_LSTM为代表的强化学习模型搜索到的因子范式，在样本外回测得到的ICIR和超额收益表现均明显优于遗传算法搜索到的结果如下表所示。对比发现对照组ICIR不足0.5，TRPO_LSTM模型ICIR可达0.9，也具有显著更高的超额收益。图表33：强化学习模型（部分）及对照方法合成因子在中证1000范围样本外月度回测的有效性检验结果注：注：1）样本区间为2021-03-01至2024-03-01；2）强化学习及遗传算法模型均使用不同随机数初始化参数进行3次训练得到平均值资料来源：Wind，中金公司研究部模型股票池IC均值|IC_IR|多头收益多头换手多空收益超额收益超额夏普超额回撤SymbolicRegressionSAC_TransformerTRPO_LSTMA2C_LinearPPO_GRUXGBoost40.93%22.99%57.15%57.56%38.17%58.09%59.60%19.75%17.22%10.82%15.16%10.19%3.84%1.07%4.39%5.32%7.83%1.65%4.51%4.36%2.08%6.35%6.06%6.99%6.08%6.75%6.09%8.32%3.59%0.29%3.04%0.87%3.89%3.86%7.49%7.79%0.530.451000100010001000100010000.890.900.730.410.360.850.750.251.561.14图表34：中证1000范围合成因子年化多空收益统计图表35：中证1000范围合成因子年化超额收益统计TRPO_LSTMA2C_LinearPPO_GRUSAC_TransformerSymbolicRegressionXGBoost210.8注：1）超额收益相对基准为全市场等权；2）样本区间为2021-03-01至2024-03-01；3）强化学习模型及遗传算法均使用不同随机数初始化参数进行3次训练得到平均值资料来源：Wind，中金公司研究部TRPO_LSTMA2C_LinearPPO_GRUSAC_TransformerSymbolicRegressionXGBoost10.9注：1）超额收益相对基准为全市场等权；2）样本区间为2021-03-01至2024-03-01；3）强化学习及遗传算法模型均使用不同随机数初始化参数进行3次训练得到平均值资料来源：Wind，中金公司研究部图表36：强化学习和遗传算法因子池中表现较好的因子在中证1000范围样本外回测的IC_IR统计TRPO_LSTMSymbolicRegression0Top1_FactorTop2_FactorTop3_FactorTop4_Factor注：1）样本区间为2021-03-01至2024-03-01；2）强化学习模型TRPO_LSTM及遗传算法均使用单次训练结果资料来源：Wind，中金公司研究部图表37：强化学习和遗传算法因子池中表现较好的因子在中证1000范围样本外回测的超额收益统计TRPO_LSTM_Top1TRPO_LSTM_Top2TRPO_LSTM_Top3SymbolicRegression_Top1SymbolicRegression_Top2SymbolicRegression_Top30.950.852021/3/12021/5/12021/7/12021/9/12021/11/12022/1/12022/3/12022/5/12022/7/12022/9/12022/11/12023/1/12023/3/12023/5/12023/7/12023/9/12023/11/12024/1/12024/3/12021/3/12021/5/12021/7/12021/9/12021/11/12022/1/12022/3/12022/5/12022/7/12022/9/12022/11/12023/1/12023/3/12023/5/12023/7/12023/9/12023/11/12024/1/12024/3/1注：1）样本区间为2021-03-01至2024-03-01；2）强化学习模型TRPO_LSTM及遗传算法均使用单次训练结果资料来源：Wind，中金公司研究部模型的参数敏感度分析本节主要就因子表现对特征提取模块和强化学习模型组合的敏感度进行分析。分别固定强化学习模型和特征提取模块，统计合成因子在样本外回测的ICIR及超额收益的平均表现。实验结果表明，TRPO、A2C和PPO模型参与因子范式挖掘得到的合成因子具有较为稳定的ICIR表现，均超过0.80。特征提取模块中，Transformer参与组合的模型输出的因子具有相对最好的ICIR表现，为0.79。►对不同的强化学习模型：TRPO模型具有更好的因子范式搜索能力，与其结合的特征提取模块训练得到的合成因子兼顾较好的ICIR及超额收益表现。此外，A2C和PPO模型输出的合成因子回测表现也具有较好的ICIR结果。SAC模型本身适用于连续动作空间的任务，对于当前离散动作空间下（且需要掩码处理）的因子范式搜索任务，其性能无法得到有效发挥，因此其输出结果的ICIR和超额收益表现都较为落后。►对不同特征模块：因子表现对特征提取模型敏感度不高，四类特征提取模块参与组合的模型输出的合成因子均具有超过0.70的ICIR表现及4%左右的超额收益。本文认为，由于因子范式长度固定值设为20，对特征提取模块的网络结构及网络深度并未提出较高的要求，故时序模型、注意力机制，甚至是常规的全连接层都发挥了较好的特征提取效果。图表38：因子表现对强化学习模型敏感度图表39：因子表现对特征模块的敏感度ICIR超额收益（右轴）ICIR超额收益（右轴）0.900.800.700.600.500.400.300.200.100.006%5%4%3%2%0%A2CTPROPPOSAC0.900.800.800.700.600.50TransformerLinearLSTMGRU6%5%4%3%2%0%注：1）超额收益相对基准为中证1000成分股等权；2）样本区间为2021-03-01至2024-03-01；3）强化学习模型使用不同随机数初始化参数进行3次训练得到平均值，并对当前强化学习模型组合过的所有特征提取模块表现计算平均值资料来源：Wind，中金公司研究部注：1）超额收益相对基准为中证1000成分股等权；2）样本区间为2021-03-01至2024-03-01；3）强化学习模型使用不同随机数初始化参数进行3次训练得到平均值，并对当前特征提取模块所有组合过的强化学习模型表现计算平均值资料来源：Wind，中金公司研究部本节主要从因子池和模型超参两个角度探索TRPO_LSTM组合模型性能对参数的稳定性。相较于其他强化学习模型，TRPO的性能表现较为稳定，对于参数变化较为不敏感。我们认为主要可能有以下原因。►从TRPO的设计原理出发：TRPO使用了信任域优化的方法，通过限制策略更新的步幅，确保策略改进过程的平滑和稳定，从而减少了因大幅度更新而导致的性能崩溃的风险。TRPO在每次更新时会自适应地调整步长（或学习率），以保持策略更新在信任域内。由于它会自动调整步长以满足KL散度的约束，该算法对学习率不是特别敏感。TRPO优化的目标函数使用了广义优势估计（GAE）来估计策略梯度，并且结合了值函数的估计来减小方差。该设计使其对于奖励函数中的噪声和估计误差敏感性降低。►从实验结果出发：模型性能与因子池规模并无严格的正相关关系。因子池规模由10增大到50时，模型输出的合成因子样本外的ICIR表现呈现上升趋势；然而当因子池规模继续增大至200时，合成因子的表现有所下降且趋于稳定。本文认为，这是由于算子种类较为有限所致，因此简单的扩大因子池不能直接合成具有更好表现的因子。模型超参：本文从学习率、单次更新步数及批量大小三个参数探索了模型性能与参数变化的关系。实验结果表明，在学习率lr=1e-3，单次更新步数nsteps=2048，批处理大小batch_size=128时，模型具有相对更好的性能表现。本文所采用的强化学习模型始终贯彻着计算效率和存储开销间的平衡。诚然更大的网络隐藏层维度及更深的网络层数有可能带来更好的拟合效果，但复杂的网络结构面临着计算效率的降低及模型过拟合的风险。因此在实际应用中，如何权衡这两者间的关系也是不可忽视的问题。注：1）超额收益相对基准为中证1000成分股等权；2）样本区间为2021-03-01至注：1）超额收益相对基准为中证1000成分股等权；2）样本区间为2021-03-01至2024-03-01；3）强化学习模型使用不同随机数初始化参数进行3次训练得到平均值资料来源：Wind，中金公司研究部注：1）超额收益相对基准为中证1000成分股等权；2）样本区间为2021-03-01至2024-03-01；3）强化学习模型使用不同随机数初始化参数进行3次训练得到平均值资料来源：Wind，中金公司研究部类别参数名称参数含义取值对模型表现的影响分析n_stepsbatch_sizetarget_klnormalizeadvantage值函数的学习率每次更新中，环境运行的步数用于批量下降的批量大小广义优势估计中偏差与方差的权衡因子策略更新之间的KL发散的目标上限是否对优势函数进行标准化处理2048影响优化速度和收敛性，过高可能导致不稳定，过低可能导致收敛缓慢决定策略更新的数据量，较大的n_steps可以提高样本多样性影响学习的稳定性和内存使用，不当的大小可能影响训练效率和效果影响优势函数的估计精度，进而影响策略梯度的稳定性和有效性控制策略更新步幅，防止更新过大造成训练不稳定可以提高算法的数值稳定性，有助于提升模型的学习效率和性能dropout网络层数嵌入层向量维度/LSTM层中隐藏状态的维度在LSTM中应用随机失活的比率3层数增多可以增加模型的复杂度和学习能力，但可能导致过拟合和训练时间增加隐藏状态的维度越大，模型的表示能力越强，但计算量也会增大有助于防止过拟合，但如果太高可能导致欠拟合资料来源：“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等（2023Wind，中金公司研究部图表41：TRPO_LSTM模型样本外表现随因子池规模变化的趋势超额收益（右轴）9%图表42：TRPO_LSTM模型样本外表现随学习率变化的趋势ICIR超额收益（右轴）1.00.20.01020501020507%6%7%6%5%4%3%2%0%0.6lr=3e-4lr=3e-4lr=5e-4lr=7e-4lr=1e-3lr=3e-38%7%6%5%4%3%2%1%0%图表43：TRPO_LSTM模型样本外表现随单次更新中步数大小变化的趋势0.950.900.850.800.750.700.650.60

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习系列（1）：使用深度强化学习模型探索因子构建范式

文档简介

温馨提示

最新文档

评论

机器学习系列（1）：使用深度强化学习模型探索因子构建范式

文档简介

温馨提示

最新文档

评论

相关文档