基于循环神经网络的选股模型改进_第1页
基于循环神经网络的选股模型改进_第2页
基于循环神经网络的选股模型改进_第3页
基于循环神经网络的选股模型改进_第4页
基于循环神经网络的选股模型改进_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中信建投证券基于循环神经网络的选股模型改进基础模型存在三方面缺陷:1)预测结果波动大;2)模型不易多任务学习的结构设计思路,尝试改进后三个模块的模型结立门控的多专家聚合结构。从对比测试来看:1)多专家结构于简单扩容模型,多专家结构在训练阶段有更均衡的拟合表从对比测试来看,1)简单堆叠下,加深层数容易出现模型退金融产品研究金融产品研究发布日期:2023年08月31日 标签和同源信息的多处理标签作为测试对象。从对比测试来下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。1目录 21.1、基础模型改进概述 2 2 3 3 32.3、改进思路分析 4 53.2、模型表现分析 5四、多堆叠模型结构测试 7 7 8 9 9 六、总结 图表1:基础模型结构示意图 2图表2:基础模型的绩效表现 3图表3:基础模型扩容的训练表现 4图表4:多专家模型结构示意图 5图表5:多专家结构的绩效表现 6图表6:多专家结构的训练表现 6图表7:多专家结构的参数敏感性 6图表8:两种跳跃连接结构示意图 7图表9:多堆叠模型结构示意图 7图表10:多堆叠结构的训练及测试表现 8图表11:多堆叠结构的绩效表现 图表12:多预测融合示意图 9图表13:多任务模型结构示意图 9图表14:多标签间预测相关性 图表15:多专家结构的训练及测试表现 图表16:多专家结构的训练及测试表现 图表17:多专家结构的训练及测试表现 图表18:多专家结构的训练及测试表现 图表19:多专家结构的训练及测试表现 2金融产品研究金融产品研究本篇报告作为上一篇《基于循环神经网络的选股模型初探》的部分延伸,基于现有模型结构做出针对性改进。不难发现,基础模型存在三方面缺陷:1)预测结果波动大;2)模型不易扩容;3)局限于单目标独立训练。由此,借鉴混合专家、跳跃连接、多任务学习的模型结构设计思路,尝试局部改进基础模型,并对比改进前后的效果。根据测试结果得到以下初步结论:1)基于多专家结构改进特征决策,能提升预测结果稳定性、不易产生过拟合;2)基于密集连接的多堆叠结构改进特征提取,能实现多层次特征复用、改善模型退化;3)基于自定义参数共享的多任务结构,能促进标签间信息共享、提升模型训练效率。如图表1所示,基础模型结构可分为四个模块:特征输入模块、特征提取模块、特征决策模块和标签输出模块。在特征输入模块中,出于普适性的考量选择了多种类型特征,涉及3大类共30个日频特征,具体包括8个日度原始行情指标、13个分钟行情统计指标和9个高频复杂因子。所有特征均经过流程化预处理,包含序列截取、时序标准化、截面标准化和缺失值填补,主要目的是保留时序信息并缩放至相同尺度。需要说明的是,本篇报告侧重于改进局部模型结构,后续实验对输入特征数据不作变更。在特征提取模块中,默认使用2层门控循环单元(GRU),利用其内部循环结构更好地捕捉时序信息。在特征决策模块中,默认使用2层全连接层(FC),作为衔接高维特征空间和低维预测标签的桥梁,以全局视角综合特征信息用于最终决策。在标签输出模块中,默认使用未来10日次均收益标签,选择综合性价比较高的预测跨度和区间价格。图表1:基础模型结构示意图3模型训练方面,1)样本划分:基于滑动时间窗口按顺序前推1年验证集和8年训练集;2)更新频率:自2016年末起,每两年重新训练模型;3)抽样规则:每个批属于同期样本;4)目标函数:设置单目标函数,相关系数取反;5)迭代轮次:最多100轮,早停机制10轮。模型测试方面,1)回测区间:从2017年1月至2023年7月,以周度频率生成预测结果;2)因子处理:将预测结果看作是深度学习因子,进行异常值缩减、标准化和中性化预处理;3)随机性:采用相同的参数初始化方法,并设定5个固定的随机种子,利于比对测试结果。回测设定方面,1)IC回测:计算当收IC和次均IC,分别以因子期当日收盘价或次日均价作为首端价格计算收益率;2)分组回测:对全市场范围进行分组,过滤新股、停牌股、ST股和涨跌停股,分为10组且组内如图表2所示,对基础模型进行测试,分别设置5个随机种子得到对应绩效表现,并统计5组结果的中位10.17%,次均IC要弱于当收IC。分组绩效方面:1)多头超额为21.3%、空头超额为-44.7%、多头-空头为65.4%、多头组换手率为47%;2)不同组别之间差异较大,最头组的组间收益差异可达3.26%、最尾组的组间收益差异可达4.31%,多头-空头的组件差异可扩大至5.9%。IC回测多空IC胜率IC胜率seed1-14.1%seed2seed393.1%seed4-44.7%68.1%seed5中位值-44.7%最大差异资料来源:中信建投在不改变基础模型结构的前提下,对其进行简单扩容,即增加模型宽度或深度。具体涉及4种做法:1)FC扩充1,仅对FC维度扩充3倍;2)FC扩容2,仅对FC维度扩充9倍;3)GRU扩容1,仅对GRU维度扩充1倍;4)GRU扩容2,对GRU增加1层并扩充1倍维度。请务必阅读正文之后的免责条款和声明。金融产品研究金融产品研究4如图表3所示,对同一随机种子、同一模型期的训练情况进行对比:1)对模型扩容能明显降低模型偏差,但也存在高方差的风险;2)相对于FC扩容,GRU扩容更易导致高方差。根据上一节分析,可以发现:1)模型在样本内训练效果不够均衡,简单扩容模型会导致模型存在较大方差;2)模型在样本外的测试效果不够稳定,模型表现会因随机种子设定而呈现较大波动。需要说明的是,在实操过程中,由于无法预知测试集信息,更多是以训练阶段的表现来评估模型性能。此外,受限于输出阶段为单一预测值,多标签模型往往需要通过多模型训练,且彼此间缺少互相增益。上述问题需要在后三个模块做出针对性改进,比如:1)考虑在特征提取模块提升特征广度和深度,同时限制模型退化和过拟合风险;2)考虑在特征决策模块集成多个决策,提升稳定性和泛化能力;3)考虑在标签输出模块改为多标签输出,也包括中间模块的训练共享机制。目前,已有不少学者在量化投资领域进行了相关研究。Linetal.[2021]提出一种TRA(TemporalRoutingAdaptor)的模型结构:1)主要建立多个预测器让模型学习多种交易模式,并设置路由器将各样本分配至适配的预测器;2)结合提取的时序特征信息和预测器的时序预测误差作为分配依据;3)利用最优运输算法并施加惩罚项,指导模型学习多元交易模式和最优分配方案。Sunetal.[2022]提出一种AlphaMix的模型结构:1)分为两阶段训练,第一阶段训练多个独立专家,第二阶段训练路由器动态选择适配专家;2)多专家阶段设置回归和分类的多任务学习,并施加多预测不确定性的惩罚项;3)路由器阶段使用多个二元分类器来选择TopK个专家。Ongetal.[2023]提出一种硬参数共享的多任务模型结构,涉及时序动量的主任务,以及多个波动预测的辅助任务。参考上述研究及模型结构设计的相关研究成果,尝试以三种“多结构”对基础模型结构做局部改进。1)多专家结构,参考混合专家模型改进特征决策模块结构;2)多堆叠结构,参考跳跃连接思路改进特征提取模块结构;3)多任务结构,参考多任务学习模型改进后三个模块的整体结构。53.1、多专家模型结构简介复杂任务拆解成若干个相对简单且更小的子任务,然后针对不同子任务训练个体学习器,最后用门控来结合这如图表4右侧所示,考虑将MoE结构融入基础模型结构,保留前端GRU用于特征提取,而将后端FC改为多个专家形式,再设置独立Gate模块用于最终聚合。若以聚合角度,可将其简化为图表4中左侧的模型结构,但两者存在明显区别:左侧聚合仅停留于学习器层面,类似于Voting,强调学强调学习器在个体层面的差异化,门控机制可以凸显各个学习器的专业性。若以学习器角度,多学习器聚合也简单聚合简单聚合控聚合输出预测输出预测控聚合111为了对比多专家模型结构导致的效果差异,维持特征输入模块和标签输出模块的数据不变、维持特征提取模块的结构参数不变,同时使得单个专家的结构参数与特征决策模块保持一致,在训练过程中设定相同随机种将基础模型结构与简单聚合结构、门控聚合结构进行对比,两种聚合结构均设定为4个专家数量。如图表5所示,可以发现:1)多专家结构下,总体绩效表现略有提升,当收IC及次均IC的总体表现有小幅提升,分组多头收益略有下降、空头收益略有提升、多空收益有所上升;2)多专家结构下,IC绩效和分组绩效的稳定性均有显著提升,不同随机种子间的最大差异值有明显缩减;3)对比两种聚合结构,简单聚合结构的绩效表请务必阅读正文之后的免责条款和声明。金融产品研究金融产品研究6IC回测分组回测模型类型统计方法RankICICIRIC胜率RankICIC胜率最头组次头组次尾组最尾组最头组基础模型1.4592.5%-44.7%1.4592.5%21.1%-45.1%门控聚合-14.1%2.1%资料来源:中信建投为了对比多专家结构的训练表现,调整特征决策模块的结构参数:1)设置3种FC扩容方法,分别对维度扩充3倍、9倍和19倍;2)设置3种专家数量,分别对标3种FC扩容的节点数量。如图表6所示,多专家结构在训练集和验证集上有更均衡的拟合表现,相近容量下训练集损失更高、验证集损失更低,表明其具备更好的泛化能力。进一步对比不同专家数量下的绩效表现,如图表7所示:5种数量下的总体表现较为稳定,总体IC略有提升、总体分组绩效基本持平,表明其对结构参数敏感性较低。IC回测专家数量统计方法RankICICIRIC胜率IC胜率最头组次头组次尾组最尾组最头组66.1%4专家中位值最大差异21.1%-45.1%8专家中位值最大差异15专家中位值-45.1%47.1%0.13中位值最大差异2.1%0.091.84%中位值最大差异-45.1%66.1%0.09%0.15%1.31%1.27%-44.7%资料来源:中信建投7残差网络X残差网络X密集网络2输入特征输入特征1128为了对比多堆叠模型结构导致的效果差异,依然维持输入特征和输出标签不变,初始化方法,主要针对特征提取模块的结构进行改动。一种是采用简单堆叠方法,以1层64维为起步,逐层加深或是拓宽后再逐层加深;另一种是采用密集堆叠方法,以2层且单层最高64维为起步,逐层加深。如图10所示,对同一随机种子、同一模型期的训练及测试情况进行对比,需要说明的是难以通过绝对损失判定模型训练表现,更多是通过横向比较来权衡方差-偏差。通过对比发现:1)简单堆叠下,加深层数会出现模型退化现象,加深至3层之后训练验证损失基本停滞,同时样本外IC表现也随层数逐渐下滑;2)简单堆叠下,拓宽维度容易造成过拟合,虽然训练和验证损失均有下探,但显然训练损失下降幅度更大,而样本内外表现出现明显背离,即样本外IC不增反减;3)密集堆叠下,训练和验证损失更为均衡,叠加特征后不易导致过拟合,样本外IC表现也有进一步提升,即丰富特征表达、提升特征复用能保证训练效果及样本内轮次训练损失验证损失IC胜率IC胜率12-23.13%90.1%34645-23.17%123290.1%34资料来源:中信建投以滚动训练对比测试效果,如图表11所示:密集堆叠方法下,总体表现有小幅提升,当收IC基本持平、次均IC小幅提升,多头收益与多空收益均有小幅提升。IC回测次均收益多空模型类型统计方法RankICICIRIC胜率RankICICIRIC胜率最头组次头组次尾组最尾组最头最尾最头组简单堆叠中位值1层最大差异93.1%-45.1%简单堆叠2层中位值-44.7%简单堆叠3层中位值65.1%中位值93.1%-44.7%67.1%资料来源:中信建投请务必阅读正文之后的免责条款和声明。9对于多标签训练模型,最简单直接的方法是采用多模型融合,如图表12右侧所示,对每个目标建立单独模型,将多个独立的预测进行加总得到最终预测结果;另一种则是强调共享机制的多任务融合,如图表12左最终预测最终预测+单模型多任务多模型单任务避免对单个任务过拟合、提升泛化能力,另一方面利用标签间差异能实现协作训练,降低单个任务学习难度、提升训练效果。由此也衍生出多种参数共享思路,如图表13所示,展示两种共享结构:1)硬参数共享:常用的共享结构,多个任务完全共享特征提取模块,而在决策阶段互相独立;2)自定义参数共享:每个任务在拥输入特征输入特征自定义参数共享硬参数共享请务必阅读正文之后的免责条款和声明。5.2.1任务设定5日10日15日10日15日89.1%89.8%100.0%100.0%91.6%89.1%资料来源:中信建投5.2.2多跨度标签测试金融产品深度报告IC回测跨度期统计方法RankICICIRIC胜率IC胜率最头组次头组次尾组最尾组最头组5日中位值60.1%2.1%0.1110日中位值-44.7%15日中位值最大差异10.41%多模型聚合中位值最大差异2.1%资料来源:中信建投IC回测分组回测多空模型设定统计方法RankICICIRIC胜率RankICIC胜率最头组次头组次尾组最尾组最头组多模型中位值2.1%多任务中位值2.1%多任务中位值93.1%-45.7%资料来源:中信建投为了对比多任务模型结构导致的效果差异,沿用前一小节的设定方法。特别地,对于二分类标签采用的分类模型,将目标函数调整为交叉熵损失函数,并将输出结果调整为回归模型结使用基础模型结构分别对三种处理标签单独训练,再将标准化标签的预测结果与另两种进行等权组合得到多模型聚合结果。如图表17所示,1)单标签训练下,排序化标签IC表现较突出、二分类标签综合表现稍弱;2)两种回归聚合下,总体表现与排序化标签大致相近;3)回归分类聚合下,IC表现与多头收益略有提升。IC回测处理方法模型类型统计方法RankiCICIRIC胜率RankICICIRIC胜率最头组次头组次尾组最尾组最头组标准化回归中位值-44.7%回归中位值93.1%-15.1%2.1%中位值最大差异回归+回归中位值93.1%65.1%2.1%二分类聚合最大差异资料来源:中信建投请务必阅读正文之后的免责条款和声明。金融产品深度报告考虑到引入额外的标签信息,将多模型融合结果作为基准做进一步对比。两种回归任务下,如图表18所示,1)硬参数共享下,总体表现略弱于多模型聚合结果;2)自定义参数共享下,总体表现与多模型聚合结果基本持平。回归分类任务下,表现出相似特性,如图表19所示,1)硬参数共享下,总体表现略弱于多模型聚合结果;2)自定义参数共享下,总体表现与多模型聚合结果基本持平。将两大类标签测试结果进行综合对比,可以发现,1)自定义参数共享的效果要明显优于硬参数共享;2)对于多跨度的差异信息,自定义参数共享的聚合效果会有进一步提升;2)对于多处理的同源信息,自定义参IC回测分组回测模型设定统计方法回归+回归中位值RankICICIRIC胜率RankICIC胜率最头组次头组次尾组最尾组最头最尾最头组93.1%65.1%2.1%多任务中位值最大差异65.1%多任务中位值自定义共享最大差异93.1%93.1%资料来源:中信建投IC回测多空模型设定统计方法RankICIC胜率RankICIC胜率最头组次头组次尾组最尾组最头组聚合最大差异多任务中位值10.88%91.6%93.1%20.3%16.4%-15.2%-44.0%64.4%47.5%多任务中位值94.0%21.6%-15.1%47.7%2.1%资料来源:中信建投请务必阅读正文之后的免责条款和声明。金融产品研究金融产品研究本篇报告作为上一篇的部分延伸,基于原有模型结构做出针对性改进。从对比的测试结果来看,1)基于多专家结构改进特征决策,能提升预测结果稳定性、不易产生过拟合;2)基于密集连接的多堆叠结构,能实现多层次特征复用、改善模型退化;3)基于自定义参数共享的多任务结构,能实现标签间信息共享、提升模型训练效率。我们也注意到,局部结构改进并未带来选股效果的阶跃性提升、结构改进也并不保证适用于所有实验环境,但不失为逐步完善模型的探索性尝试。风险提示:研究均基于历史数据,对未来投资不构成任何建议。文中的模型分析均是以历史数据进行计算和分析的,未来存在失效的可能性。市场的系统性风险、政策变动风险等市场不确定性均会对策略产生较大的影响。另外,本报告聚焦于深度模型构建和量化组合的回测效果,因此对市场及相关交易做了一些合理假设,但这样可能会导致基于模型所得出的结论并不能完全准确地刻画现实环境,在此可能会与未来真实的情况出现偏差。而且数据源通常存在极少量的缺失值,会弱微增加模型的统计偏误。ShuoSun,RundongWang,and

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论