提升AI模型边际效能:图注意力网络与特征集成_第1页
提升AI模型边际效能:图注意力网络与特征集成_第2页
提升AI模型边际效能:图注意力网络与特征集成_第3页
提升AI模型边际效能:图注意力网络与特征集成_第4页
提升AI模型边际效能:图注意力网络与特征集成_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

请仔细阅读本报告末页声明证券研究报告|金融工程研究在报告《基于深度学习的指数增强策略》中,我们提出了增强AI选股模型绩效的3个思路:1.对同一模型构建差异化数据集输入,堆叠多数据集的输出;2.通过调整超参数选取、标签构建、数据预处理方式等精进单一模型;3.对同一数据集根据不同模型训练,堆叠多模型的输出;我们在之前研究中重点讨论了前两者,本文围绕第三个思路展开,探讨如何基于同一数据集,在不同模型下训练并堆叠因子输出,以提升模型效能。多维度提升AI选股模型绩效首先,我们在时序神经网络中引入图结构网络,以此刻画股票之间的关联,该空间信息的引入增强了单一数据集的预测能力;其次,我们在原有基础数据集之外引入手工构建的量价和基本面特征集合,手工特征集显著捕获了端对端模型之外的增量Alpha信息;最后,在特征集成阶段,我们考虑数据输入、算法使用与标签设计等维度的多样性,综合构建集成模型,这进一步提高了模型的选股能力。深度学习选股因子基于多维度特征集合、集成算法与标签设计,我们得到深度学习选股因子,在回溯期2019年至2023年间,因子多头超额收益45.4%,5日IC均值为12.9%,10日IC均值达到14.7指数增强组合基于AI选股因子,我们构建周频调仓的中证500和中证1000指增组合:1.2019至2023年,中证500指数增强组合相对中证500指数年化超额收益18.6%,跟踪误差5.5%,信息比率2.98;2.2019至2023年,中证1000指数增强组合相对中证1000指数年化超额收益28.1%,跟踪误差6.4%,信息比率3.67。风险提示:结论基于历史数据以及模型推算,存在失效风险。作者分析师缪铃凯相关研究可转债量化月报》2024-06-11线级别下跌》2024-06-10P.2请仔细阅读本报告末页声明一、AI选股模型 二、数据与网络 42.1数据输入 42.2网络结构 三、因子信号 3.1基础数据集 3.2手工特征数据集 四、特征集成 五、指增策略 5.1中证500指数增强 135.2中证1000指数增强 五、总结 风险提示 图表1:中证500指增(80%成分权重下限) 图表2:中证1000指增(80%成分权重下限) 图表3:AI选股模型结构 图表4:图注意力机制 图表5:基础数据集因子相关性 图表6:基础数据集因子绩效 图表7:alpha158因子分类 图表8:手工特征集因子相关性 图表9:apha158因子绩效 图表10:fundamental因子绩效 图表11:特征合并示意图 10图表12:LSTM因子集合集成绩效 图表13:LSTM-GAT因子集合集成绩效 图表14:加入手工数据后因子绩效 图表15:多次集成因子绩效 图表16:中证500指数增强组合净值 13图表17:中证500指数增强组合收益 13图表18:中证1000指数增强组合净值 图表19:中证1000指数增强组合收益 P.3请仔细阅读本报告末页声明图表1:中证500指增(80%成分权重下限)—组合—中证500—相对强弱资料来源:wind,国盛证券研究所图表2:中证1000指增(80%成分权重下限)0.6—组合—中证1000—相对强弱资料来源:wind,国盛证券研究所探讨如何将同一数据集在不同模型下的训练输出有效堆叠,以提升模型边际效能。图表3:AI选股模型结构featureensembleengineeringmodeldatafeaturefactormodeloptimizeportfolio资料来源:国盛证券研究所绘制基于此,本文将具体探索以下三个维度:3.多维度特征集成:对于多网络结构输出的多维度特征集合P.4请仔细阅读本报告末页声明2.价格数据先除以最新收盘价标准化,成交量/额数据除以序列2.价格数据先除以最新收盘价标准化,成交量/额数据除以序列数据特征:开盘收益率、早盘/尾盘收益率、日内最高/最低收益率、日内平均收益率数据预处理数据预处理数据预处理数据预处理P.5请仔细阅读本报告末页声明它在处理股票时间序列信息方面表现出色,然而,在实际的投资决策中,除了单只股票的时间序列信息外,股票之间的截样蕴含着至关重要的信息。为了捕捉这种股票间的相互关系,我们引入了图注意力网络股票之间的复杂截面关系,从而为我们提供了一理解股票市场的行为,为投资决策提供更为深入和精确我们具体的网络结构如下:ℎidden=LSTM(input)att=selfattention(ℎidden)gat_output=GAT([att,ℎidden−1],adj)output=MLP(gat_output)在神经网络的训练过程中,我们遵循以下步骤:作为训练基础,确保模型能够适应时间序列的变化;P.6请仔细阅读本报告末页声明{1,2,3,…,N},i∈RF,通过线性变化w∈RF′×F得到N个节点的F′维特征表示ℎ′。的影响:eij=a(wi,w)。将目标节点与所有邻居节点算出权值之后做softmax归一化:aij=softmaxj(eij),最终每个节点的输出=σ(∑j∈Niaijw),其中Ni是与节点i连通的节点集合。图表4:图注意力机制资料来源:VelikoviP,CucurullG,CasanovaA,etal.GraphAttentionNetworks,国盛证券研究所整理因此,对于图网络模型而言,邻接矩阵的定义至为gat_output=GAT(input,Aind)其中Aij=1当且仅当industyi=industyj,否则Aij=0。gat_output=[GAT(input,Aind),GAT(input,Astyle)]对于Astyle,股票间的连通取决于风格暴露,我们参考文献2将节点风格特征信息嵌入:M2=tanh(aE2θ2)Astyle=ReLU(tanh(a(M1M−M2M)))idx=aTgtopk(A[i,:])Astyle[i,−idx]=02020.DOI:10.1145/339P.7请仔细阅读本报告末页声明对于因子绩效具体检验规则,如下:基础数据集包含数据集1-5,它们的具体构建细则在前序报告中已经介绍,下面我们基图表5:基础数据集因子相关性baselinebaselineGAT-indGAT-ind-stylekbarmoney_flowkbar_m4intra_retpv_factorkbarmoney_flowkbar_m4intra_retpv_factorkbarmoney_flowkbar_m4intra_retpv_factorkbar-34%79%79%65%66%-36%36%82%82%70%70%68%-39%39%82%82%68%68%67%money_flow34% 37%37%40%54%36%36% 36%36%38%38%50%39%39%-39%39%40%40%49%kbar_m479%37%-67%66%82%82%36%36% 69%69%65%82%82%39%39% 70%70%66%intra_ret65%40%67% 69%70%70%38%38%69%69%-68%68%68%40%40%70%70% 65%pv_factor66%54%66%69%69%-68%68%50%50%65%65%68%68%-67%67%49%49%66%66%65%65%-资料来源:wind,国盛证券研究所提升。因此,图网络模型可能增加数据集输出特征之间的信息重叠度。图表6:基础数据集因子绩效baselinebaselineGAT-indGAT-istylebaselineGAT-indGAT-style资料来源:wind,国盛证券研究所对于单一数据集而言能提高数据集的预测能力。P.8请仔细阅读本报告末页声明图表7:alpha158因子分类KLEN,KUP,KLOW,HIGH0,LOW0,STD5,STD10,MIN5,VSUMP5,VSUMP10,VSUMVSUMD5,VSUMD10,VSUMD20,VSUMD30,VSIMAX5,IMAX10,IMAX20,IMAX30,IMAX60,IMIN5,IMIN10,IMIN20,IMIN30,IMICNTN20,CNTN30,CNTN60,SUMN5,WVMA5,WVMA10,WVMA20,WROC5,ROC10,ROC20,ROC30,ROC60,MA5,MA10,MA20,MA30,MA60,QTLU5,QTLU60,QTLD5,QTLD10,QTLD20,QTLD30,QTLD60,SUMN10,SUMN20,VMA5,VMA10,VMA20,VMA30,VMA60,VSTD10,VSTD20,VSTD30,VSTD60,VSUMN5,VSUMN10,VSUMBETA5,BETA10,BETA20,BETA30,BETA60,RESI20,RESI30,RESI60,MRANK5,RANK10,RANK20,RANK30,RANK60,RSV5,RSV10,RSV20,RSV30,RSV60,CCNTP30,CNTP60,CNTD5,CNTD10,CNTD20,CNTD30,CNTD60,SUMP5,SUMP10,SUMP20SUMD5,SUMD10,SUMD20,SUMD3alpha6KMID,KMID2,KSFT,KSFT2,RESI5,RESI10alpha7CORR5,CORR10,CORR20,CORR30,CORD5,CORD10,CORD20,CORD30,CORD60KUP2,KLOW2,STD20,STD30,STD60,RSQR5,RSQR10,RSQR20,RSQR30,RSQR6MAX30,MAX60,IMXD5,IMXD10,IMXD20,IMX资料来源:wind,国盛证券研究所gat_output=[GAT(input,Aind),GAT(input,Astyle)]output=MLP(gat_output)其中Aind和Astyle分别为基于行业和风格信息得到的邻接矩阵。P.9请仔细阅读本报告末页声明图表8:手工特征集因子相关性--资料来源:wind,国盛证券研究所图表9:apha158因子绩效16.8%10.6%19.4%10.8%22.6%10.8%20.3%9.9%25.5%10.0%24.0%9.9%15.5%8.3%18.4%8.3%17.2%7.7%20.1%10.6%21.4%10.6%25.3%10.8%17.3%10.1%12.6%9.4%14.1%9.8%19.1%9.9%20.5%9.9%21.9%9.8%资料来源:wind,国盛证券研究所因此,对于网络模型而言,模型复杂度可能提高图表10:fundamental因子绩效65.6%21.0%44.5%8.2%87.5%67.8%35.6%32.2%6.8%79.8%40.5%15.6%25.0%6.1%78.2%55.6%24.9%30.6%8.9%85.1%51.2%18.4%32.8%9.9%81.8%59.2%24.5%34.7%8.1%82.5%资料来源:wind,国盛证券研究所P.10请仔细阅读本报告末页声明以提高预测的准确性和稳健性。业界普遍采用的方法之一就是使用集成学习技术,尤其是梯度提升决策树(GBDT)算法,来对这些因子输出进行集成。GBDT算法对于参数而言并不敏感,这意味着通过细致的参数调优来实现图表11:特征合并示意图concat资料来源:国盛证券研究所绘制 子特征随机相加;最后拼接不同数据集的因子特征,得到综合特征集合。据的复杂性和多样性,从而提高整体模型的泛化能力和预测准确性。P.11请仔细阅读本报告末页声明在集成后的综合因子绩效。图表12:LSTM因子集合集成绩效资料来源:wind,国盛证券研究所图表13:LSTM-GAT因子集合集成绩效资料来源:wind,国盛证券研究所P.12请仔细阅读本报告末页声明图表14:加入手工数据后因子绩效资料来源:wind,国盛证券研究所可能蕴含神经网络难以直接从原始数据中提取的特征最后,我们对比多次集成相对于单次集成对于模型绩效的提升。以单一因子集、单一集图表15:多次集成因子绩效资料来源:wind,国盛证券研究所因此,在输入特征、集成算法和标签设定等多维度提高选股模型的绩效。我们以此作为本文最终的深度学习综合因子,构建选股策略。P.13请仔细阅读本报告末页声明图表16:中证500指数增强组合净值资料来源:wind,国盛证券研究所图表17:中证500指数增强组合收益超额收益基准收益信息比率超额回撤12.9%38.0%25.1%-6.0%4.4%55.2%63.6%20.0%40.9%20.9%-4.0%5.9%58.0%75.0%25.0%40.6%15.6%-6.4%6.0%63.8%75.0%17.2%-3.1%-2.1%5.4%57.9%91.7%13.8%6.3%-7.4%-9.9%-2.4%4.8%60.7%83.3%18.6%24.0%5.4%-6.4%5.5%59.1%78.0%资料来源:wind,国盛证券研究所P.14请仔细阅读本报告末页声明图表18:中证1000指数增强组合净值资料来源:wind,国盛证券研究所图表19:中证1000指数增强组合收益超额收益基准收益信息比率超额回撤资料来源:wind,国盛证券研究所P.15请仔细阅读本报告末页声明3.对同一数据集根据不同模型训练,堆叠多之前研究中我们重点讨论了前两者,本文围绕第三个思路展开,探讨如何基于同一数据其次,我们在原有基础数据集之外引入了手工量价和基本面特征集合,手工特征集显著合构建集成模型,这进一步提高了模型的选股能力。P.16请仔细阅读本报告末页声明P.17请仔细阅读本报告末页声明免责声明国盛证券有限责任公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告的信息均来源于本公司认为可信的公开资料,但本公司及其研究人员对该等信息的准确性及完整性不作任何保证。本报告中的资料、意见及预测仅反映本公司于发布本报告当日的判断,可能会随时调整。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态,对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本公司力求报告内容客观、公正,但本报告所载的资料、工具、意见、信息及推测只提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。投资者应注意,在法律许可的情况下,本公司及其本公司的关联机构可能会持有本报告中涉及的公司所发行的证券并进行交易,也可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论