金融产品深度:资金流向相似性图谱与图神经网络_第1页
金融产品深度:资金流向相似性图谱与图神经网络_第2页
金融产品深度:资金流向相似性图谱与图神经网络_第3页
金融产品深度:资金流向相似性图谱与图神经网络_第4页
金融产品深度:资金流向相似性图谱与图神经网络_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请参阅最后一页的重要声明。2021/7/52021/8/52021/9/52021/10/52021/11/52021/12/52022/1/52022021/7/52021/8/52021/9/52021/10/52021/11/52021/12/52022/1/52022/2/52022/3/52022/4/52022/5/52022/6/5资金流向相似性图谱与图神经网络本报告构建6种资金流向相似性图谱,并用于XGB训练的特征工程环节、图神经网络的训练,为存量因子、模型和策略带来模型IC、TOP组超额、多空收益、指数增强组合的收益增量。将XGB和GAT叠加多图谱后进行集成,进一步带来额外增量。资金流向相似性关系图谱股票之间在同一时段内共同出现资金净流入或流出的频率,反应了驱动股价变化的相似资金行为的影响因素,本报告以此思路构建了6种资金流向相似性图谱。特征工程衍生因子:传统机器学习模型增强在传统XGBOOST训练过程中,在特征工程的环节,基于资金流向相似性图谱的邻接矩阵对存量因子进行因子衍生,将衍生因子和存量因子共同用于模型训练,从而利用股票自身信息及在资金流向相似性图谱上和股票有关联的其他个股信息共同预测个股收益率,从而在模型训练过程中叠加图谱信息,最终通过多图谱集成的方式为模型IC和rankIC带来增量,各指成分股TOP组超额比原始模型提升2%~3%、多空年化收益增量2%~5%。注意力机制图神经网络GraphAttentionNetwork(GAT)是一种基于注意力机制的图神经网络模型,用于学习节点之间的依赖关系。其核心思想是在显示图确定的节点之间的关联关系的基础上,利用注意力机制自适应地学习节点之间的关联度权重。利用GAT模型将资金流向相似性图谱和存量因子一起用于模型训练,相比于不加GAT的相同结构部分的MLP而言,多图集成的GAT方案在各个指数成分股上带来IC增量2%左右,TOP组超额增量2%~5%,多空年化收益增量3%~10%。传统模型与GAT再集成从模型效果来看,基于同样存量因子叠加多图谱训练的神经AT模型输出有较低相关性,进一步将两类模型集成能够带来相对XGBOOST模型的增量。最终全市场IC由原始不叠加图谱XGB的9.35%提升至10.53%、多空年化收益由44.8%提升至61.35%。在各个指数成分股上,集成模型相对多图谱XGBOOST带来IC增量0.2%~0.6%,相对不叠加图谱信息的XGBOOST最高带来IC增量1%以上;TOP组超额、多空收益等指标均能进一步带来不同程度的增量。集成模型最终在全市场IC9.83%,扣费后多空年化60%,00、500、1000成分股TOP组年化超额9.22%、12.60%、17.89%。经过组合优化后超额夏普进一步稳定。风险提示:因子测试、机器学习建模是对历史经验的总结,模型学习到的市场规律在未来存在失效的可能。陈陈升锐chenshengruiAC执证编号:S1440519040002鲁植宸luzhichenAC执证编号:S1440522080005市场表现4%-6%-16%-26% 沪深300关系型数据增强模型训练:新闻共同报道增强机器学习模型训练链关系矩阵的因子增强0891 上证50金融产品研究页的重要声明 金融产品研究 1金融产品研究型页的重要声明一、引言随着存储、算力、模型方法的迭代更新为量化投资研究大规模积累有效因子提供了基础,投研中所涉及的存量因子从几百到几千不等,资产定价、因子选股步入高纬度时代。在多因子量化选股场景中,因子的角色逐步从信号转变为众多的特征,对因子的评估逐步从单因子有效性转变为相对于存量因子的边际增量。尤其在机器学习、人工智能这类非线性模型广泛应用于因子合成环节之后,即便单因子与存量因子在线性维度上能保证低相关性、克服多重共线性,但是在非线性建模场景下能带来的边际贡献也未必可观。新数据、新因子、新信息的有效性不单单取决于其单因子的效果强弱,在当下的研究与实务中,新因子相对于已有因子带来的边际增量显得更加重要。关系型图谱数据在因子挖掘场景的应用的研究逐渐受到关注,已有学术文献论证了供应链、分析师共同覆盖、新闻共同报道、行业等关系维度下,收益之间存在显著的领先-滞后关系,并基于此类信息构建动量传导因子。在高纬度存量因子的背景下,因子以样本特征的形式被用于资产定价,关系型数据可以在建模环节通过因子衍生、联合训练、进而利用深度学习中的图神经网络的方式为资产定价提供信息增量,从而为量化策略带来超额收益的增量。资料来源:中信建投在早期报告中,本系列先后探究了供应链关系、分析师共同覆盖、新闻共同报道在因子建模场景的应用,通过构建形成表征公司间相关关联特征的关系矩阵,以此对原因子库进行特征工程衍生,在模型训练和分组测试上,加入各类关系图谱衍生因子后带来模型输出的IC值和组合构建上的增量。本报告构建了6种表征股票之间的资金流向相似性的矩阵,在存量因子库的基础上,通过批量衍生训练传统机器学习模型、图神经网络两种方式将资金流向相似性矩阵用于模型训练环节的增强,结果表明加入资金流向相似性对收益预测带来增强效果。2金融产品研究型页的重要声明二、资金流向相似性资料来源:中信建投2.1资金流向相似性图谱定义股票和股票之间的资金流向相似性刻画了资金层面推动股价走势的交易行为的相似性,也反应的交易行为背后资金方对股票价格的预期的共性。资金流入、流出的一致性更强的两个股票潜在具有更强的关联性。与早期报告中对供应链、分析师共同覆盖、新闻共同报道关系的建模方式类似,本报告通过邻接矩阵来描述股票两两之间基于资金共同流向的关联关系,进而构建六种资金流向相似性图谱。资金流向数据基于level2高频行情数据进行衍生,根据委托、成交的资金量、成交类型等信息区分资金类型、成交类型和资金流向。图表3为构建资金流向相似性图谱的具体细节据来源:中信建投,Wind,<4万元)、中单(中户,4万-20万)、大单(大户,20-100万)、特大单(机构,>100万)金融产品研究型页的重要声明成交类型:根据成交订单对应买卖双方的委托时间先后,将先来的委托订作为被动方、后来的为多订单作为主动方,从而将成交价>=卖价的成交称为主动买入、成交价<=买入订单价格的成交称为主动卖出。当日的资金净流入=当日主动买入成交额-当日主动卖出成交额。净流入大于0为资金净流入,反之为资金净流出。根据某天资金净流入、流出的情况,可以计算股票两两之间资金联动的一致性情况。以资金共同流入图谱为例,具体构建步骤细节为:1)统计近22个交易日内,两个股票共同出现资金净流入的交易日数量2)构建全市场所有股票的邻接矩阵,本报告认为股票两两之间的资金共同流向存在相关关联,从而在邻接矩阵中两两股票的对应位置里填入资金共同净流入的交易日数量3)对所有股票重复上述步骤,最终的邻接矩阵的数值表示两只股票共同出现资金净流入的交易日数量4)并在每行保留每只股票关联度最强的前百分之1的股票作为图谱上的邻居基于资金流向相似性图谱,最终可以构建新的关系矩阵Mc,用以表征股票之间的资金共同流向关联,即Mc11Mcn1Mc11Mcn1Mc12…Mc22…Mcn2…Mc1nMcnnMc1nMcnn其中,Mcij表示第i个股票与第j个股票的资金共同流向关联度,即两个股票原始资金共同流向交易日天数类似地,根据不同资金类型、流入流出情况依次构建6种图谱及其对应邻接矩阵矩阵。2.2存在资金流向相似关系个股的收益率相关性分析为衡量存在资金流向相似性关系的个股在价格波动性上的一致性,本报告在2018年-2021年,以每半年的频率统计:在A股市场全样本和过去6个月中有资金流向相似关系的样本中,股票之间的收益率相关系数的分布情况,统计结果见图表4,相关系数的数据分布有关资金共同流出的见图表5、6。注:数据截至2021/12/314金融产品研究型六个关系图中,资金共同流出、大单资金共同流出、中小单资金共同流出三种流出类图谱上存在的关联个股之间的相关系数分布相比于全市场有明显的增量。三种资金流出类样本的收益率相关系数的均值和各个分位数高出全样本1%-5%。从相关系数分布图上看,存在资金共同流向相似性关系的个股相关系数分布在各个区间上相对于全市场有不同程度的右移动。注:数据截至2021/12/31注:数据截至2022/06/30金融产品研究型注:数据截至2022/06/306金融产品研究型页的重要声明三、资金流向相似性在模型训练中的应用3.1基于资金流向相似性的衍生因子构建本报告进一步对利用前文所述的资金流向相似性关系矩阵Mc,对因子进行处理,首先对各个元素除以其所在行之和,得到权重矩阵Mw。特定因子F为各个股票对应的特定因子值,是一个n×1的向量(下称原有因子),即⋯Fn其中,Fi表示第i个股票的因子值。对于上述因子向量F进行如下运算,可以得到对应的衍生因子Fc:Fc=Mw∗F其中,Fc为集成了资金流向相关股票的衍生因子值,也是一个n×1的向量(下称衍生因子)。对于某只特定股票i,其原有因子值为Fi,则衍生因子值为Fci=∑1MwijFi。衍生因子的因子值代表了对于每个股票而言,其在资金流向相似性关系网上有关系的个股的因子值根据他们之间的关联度进行加权求和的结果。3.2衍生因子联合训练在模型训练中,在模型训练环节,对于给定的原始样本特征X=[F,F,...,F],根据因子图谱衍生方法得到衍生特征维度Xw=Mw∗X=[Mw∗F,Mw∗F,...,Mw∗F]。然而进一步将原始样本特征和衍生的特征维度拼接后作为新的样本特征X̃=[X,Xw]=[F,F,...,F,Mw∗F,Mw∗F,...,Mw∗F]对于某个交易日上股票i,其对应的样本Xi代表了该股票自身信息在样本空间的特征,Xi~代表了在资金流向相似性图谱所对应的关系网上,与该股票有关联的股票的信息和该股票自身信息的集成。因此,用[X,Xc]作为样本特征进行模型训练和预测,意味着利用股票自身信息以及与其有资金流向相似性关联的个股的信息来联合预测个股i的收益率。在模型训练中,图谱集成方案分为单图谱方案和多图谱方案:单图谱将利用原始特征X训练得到的模型y=g(X)作为基准,考察联合训练模型与原始模型的集成y=g(X)+f(X̃̃)的增量。多图谱:将多个图谱联合训练的结果进行集成,多图谱的训练方案见图表8。金融产品研究型页的重要声明资料来源:中信建投3.3模型训练实验设置及结果分析本小节基于给定存量因子库的因子,平行对比存量因子库的单独应用、叠加资金流向相似性图谱联合训练的多种方案,评估资金流向相似性图谱的衍生因子在传统机器学习建模过程种为存量因子带来的增量。3.3.1模型训练实验设置模型训练环节,本文采用了XGBOOST模型,通过滚动训练的方式,每10个交易日训练一次模型,用于未来10个交易日的选股和组合构建,每次使用最近22个交易日计算得到的资金流向相似性图谱进行因子衍生和特征构造,模型训练参数细节见图表9:模型类型XGBOOSTbooster:gbtreecolsample_bytree:0.7learningrate1超参数max_depth:7min_child_weight:10n_estimators:100subsample标签vwap计算未来10日收益率预处理:截面winsorize左右5%缩尾、标准化标签:取rank分位数样本集:剔除缺失值比例大于20%的样本训练设置每10个交易日重新训练一次模型每次使用300个交易日的样本作为训练集每次使用最近22个交易日计算得到的资金流向相似性图谱进行因子衍生及特征构造资料来源:中信建投8金融产品研究型为了评估资金流向相似性关系信息对因子库、模型和策略带来的增量,本文采取以下平行对照实验:1)RawModel:每次训练将根据上述流程使用原始因子作为个股的样本特征。2)叠加图谱信息进行训练:每次训练在原始因子基础上,逐一利用每种资金流向相似性关系提取的矩阵进行矩阵乘法,对每个因子衍生出一个新因子,从而每个样本为原始因子+衍生因子的2倍特征。通过该方法进行模型训练,将个股自身的特征维度、以及在资金流向相似性关系网上和其有关联的个股的特征维度一起用于个股的收益率预测。3.3.2叠加衍生因子模型输出的有效性分析图表10展示了各个图谱的训练方案在中证全指成分股上与未来10日收益率的IC、rankIC情况:1)叠加单图谱所形成的资金流向相似关系矩阵的因子的模型输出IC均值为9.38%~9.52%,相对原始因子模型输出提升0.1~0.2%2)除中小单共同流出图谱外,资金流向相似性提取因子结果的IC,rankIC均有不同程度的增量3)叠加多图谱的资金流向关系矩阵的因子的模型输出IC均值为9.60%~9.68%,相对原始因子模型输出提升0.3%左右。图表11展示了各个方案相对原始模型的IC增量累计曲线:1)单图谱方案在2020年前有较为稳定的IC增量,2020年后IC累计增量出现集体失效且不同方案出现分化。2)资金共同流出、大单资金共同流出图谱的增强效果在整个测试周期内较为稳健。大单资金共同流入图谱在2022年7月之前累计增强效果最强,但之后其增量出现失效,在周期内增强效果不稳定。3)LRI、TRU多图谱方案IC增量有明显的持续提升。多图谱方案相比于单图谱方案而言,增量的持续稳定性更强注:数据截至2022/12/309金融产品研究型注:数据截至2023/05/303.3.2叠加图谱模型输出对各成分股的有效性分析叠加资金流向相似性图谱所训练模型在各指数成分股内均能带来不同程度的IC、rankIC提升,IC、rankIC波动性也随之提升。从绝对增量上来看,沪深300成分股内IC增量较大,中证800、中证500、中证1000增量渐弱。不同类型的图谱在各个指数成分股上增强效果的相对强弱的差异可能来源于:市值较大的股票的资金共同流向来源于确定性的驱动因素,因此股价走势的联动性和资金流向相似性的关系更紧密。市值较小的股票的资金共同流向有更多的随机性。注:数据截至2023/05/30金融产品研究型3.3.3模型输出分组测试本报告进一步通过分组、多空测试,评估比较10种方案下模型输出的效果。股票池为中证全指成分股(剔除其中被ST和停牌的股票),回测区间为2017/06/01-2023/05/30。将根据因子值排序分为10组、市值加权、10日调仓进行测试,交易费用单边0.15%。为了避免不同回测起始交易日下的日历效应、路径依赖带来的影响,每个分组的回测将资金分为10份,在T+0日-T+9日每日作为回测的起点进行一次回测,并将10个子组合的收益求平均后作为最终该分组的收益。分层测试结果见错误!未找到引用源。注:数据截至2023/05/301)原始因子分别叠加三个资金共同流入图谱的关系后,头部组合在年化超额收益、夏普比率均有不同程度改善。三个资金共同流入图谱在TOP组年化超额、超额夏普上均有提升,资金共同流入图谱为模型训练带来2.26%的超额提升、夏普增量0.1。2)原始因子分别叠加三个资金共同流入图谱的关系后,多空组合在年化收益、夏普比率等指标均有不同程度改善。特别是资金共同流入图谱为模型训练带来5.31%的年化收益增量。3)三个资金共同流出图谱在全市场范围选股的多空组年化收益、夏普几乎没有增量。4)三个多图谱集成方案的头部组超额增量分别为2.74%、2.9%、3.12%,TRU的TOP组超额、夏普、多空收益等指标均有进一步增量。进一步在沪深300、中证500、中证800、中证1000成分股上评估比较3种多图谱模型输出的效果,结果金融产品研究型页的重要声明注:数据截至2023/05/30注:数据截至2023/05/301)三种图谱集成方案在各大宽基指数内的分层测试表现均有提升,中证800成分股TOP组超额提升幅度金融产品研究型页的重要声明较其他指数明显,其中TRI集成方案上年化超额提升3.5%。沪深300成分股上增量3%,中证500、中证1000上增量均在2%左右。3)各个成分股上rankIC、IC的增量相对强弱和TOP组超额收益增量情况较为一致,和多空收益一致性较低。4)叠加图谱后的集成方案上,中证1000TOP组超额在2017年9月后一直呈现稳定持续的增量;沪深300TOP组超额在2019年11月之前几乎没有增量,11月之后呈现稳定增量;中证500TOP组超额在2020年9月到2021年7月之间出现失效,2021年7月之后呈现稳定增量。中证800TOP组超额在2019年11月之后有稳定的增量,但在2021年1月-7月出现不同程度的分化。金融产品研究型页的重要声明四、资金流向相似性图谱在图神经网络上的应用4.1模型介绍(一)基于注意力机制的图神经网络图神经网络可以看作神经网络的拓展,能够处理图结构的输入数据。图结构数据可以定义为G={V,E},其中,V是图中所有节点的集合,在本研究中表示企业,E是边的集合,在本文中表示企业间的关系。本文主要采用GraphAttentionNetwork模型来学习图结构,使得节点可以在聚合过程中考虑到不同关联企业的重要性差GraphAttentionNetwork(GAT)是一种基于注意力机制的图神经网络模型,用于学习节点之间的依赖关系。其核心思想是为每个节点自适应地学习不同节点对当前节点的重要性权重,从而对节点进行聚合。其原理包括以下几个关键步骤:1、输入表示:将每个节点的特征表示作为输入,h={1,2,...,N},i∈RF,N为节点数,F为特征维度。2、注意力αij计算:通过计算节点对之间的注意力权重,确定节点对当前节点的重要性。∑k∈Niexp(LeakyRelu(T[Wi||Wk∑k∈Niexp(LeakyRelu(T[Wi||Wk]))αij=softmax(eij)=其中,eij是节点i和j之间的注意力系数,为了使不同节点之间的注意力系数具有可比性,使用了softmax函数进行标准化处理。注意力机制是一个单层前馈神经网络,由权重向量∈R2F′和共享权重矩阵W∈RF′×F进行参数化。Ni表示i的邻接节点,通过掩码注意力机制,引入图的结构信息,也就是只对i的邻接节点计算注意力系数。3、特征聚合:使用注意力权重对相邻节点的特征进行加权聚合,得到当前节点的表示。i的高阶特征,维度为F’。4、输出预测:通过进一步的层级结构和激活函数,对聚合后的节点表示进行预测或分类。(二)隐式图学习已有学术文献论证了供应链、分析师共同覆盖、行业等企业间关系型数据在股票市场中的有效性,但是实际场景中,企业间关系类型并非单一,根据先验知识,将预定义好的关系图数据作为模型的输入很难捕获所有金融产品研究型页的重要声明的关系。因此本文使用BarraCNE5风格因子+资金流向指标因子,去自适应的学习企业的潜在关联。具体来看,可以通过一个单层的前馈神经网络来学习潜在的企业关系,其中激活函数是LeakyRelu。t时刻,企业i与企业j之间的潜在关系表示为:Rj=LeakyReLU(sWr[v||v])其中,v和v分别是企业i和企业j的因子特征,维度为D,将两者连接起来,使用一个维度为(D’,2D)的矩阵Wr将其映射为一个D’维的特征空间,然后使用一个D’维的向量sr将其进一步转换为一个标量。矩阵Wr和向量sr进行参数化,由此,可以得到隐式图的邻接矩阵,即为一个元素为Ri,j的N×N矩阵。4.2模型结构及实验设计为了融入企业间关系信息,本章在MLP模型的基础上加入了关系图信息,构建自适应的图模型。模型结构如下图所示,输入分别为因子数据和资金流向相似性图谱邻接矩阵。资料来源:中信建投为了评估关系图谱对因子库、模型和策略带来的增量,本文采取以下平行对照实验:1)MLP:由三层全连接层组成,样本特征为原始存量因子,隐藏层维度分别为128和维度64,输出维度2)引入图谱信息进行训练:利用每种资金流向相似性关系提取的矩阵作为模型的显式图作为神经网络模型的输入,根据上述模型架构,进行模型训练,将个股自身的特征以及在资金流向相似性关系图一起用于个股的收益率预测。其中,结构中MLP1部分输入因子为存量因子库中的因子,该部分MLP1的结构与1)中MLP结金融产品研究型页的重要声明构完全相同。3)多图谱方案Ens_GAT:CashOut、MedSmallCoInAct、ExNLargeCoInAct三个图谱训练结果进行集成。4.3模型结果评估为了衡量经过资金流向相关性矩阵相对于基准模型的提升,研究评估了引入图神经网络所训练模型在测试集上的输出和仅多层感知机(MLP)所训练模型在测试集上的输出,计算输出和未来10日收益率的IC和rankIC。1)引入单图谱所形成的资金流向相似关系矩阵的模型输出IC均值为6.93%~7.95%,相对MLP模型输出提升0.16~1.18%。引入多图谱资金流向关系图的模型输出IC均值为8.01%,相对MLP模型输出提升1.24%2)除资金共同流入图谱外,引入资金流向相似性关系图的模型IC,RankIC均有不同程度的增量。3)单图谱方案在2018年和2022年有较为稳定的IC增量,2019年后IC累计增量出现集体下降、叠加图谱方案出现失效,且不同方案之间出现较大分化。数据来源:中信建投,Wind注:数据截至2023/5/30金融产品研究型页的重要声明引入资金流向相似性图谱所训练模型,在各指数成分股内均能带来不同程度的IC、rankIC提升,并且IC、rankIC波动性降低:1)从绝对增量上来看,沪深300成分股内IC增量较大,提升0.76~2.09%,和叠加资金流向相似性的衍生因子结论相似;中证1000成份股内,除资金共同流入外,其他叠加其他图谱的GAT方案相对MLP模型输出IC提升0.98%~1.36%,中证500提升0.39%~1.61%,中证800提升0.51%~1.79%2)从单个图谱来看,在不同指数成份股中,资金共同流出和大单共同流入关系图的提升效果最优;多图谱集成方案(Ens_GAT)对在此基础上能有进一步增量注:数据截至2022/12/30金融产品研究型页的重要声明4分组测试4.4.1全市场除了中小单资金共同流出(MedSmallCoOutAct)外,引入其他几种资金流向相似性图谱后训练的GAT模型相对于MLP而言,头部组合在年化超额收益、夏普比率均有不同程度增量。特别是资金共同流出图谱为模型训练带来3.79%的超额提升、超额夏普比率增量0.177。多图谱集成方案的头部组超额年化和夏普增量相比单图谱有进一步提升,分别为4.39%和0.202,最大回撤除了中小单资金共同流出关系图,引入各个图谱后的TOP组收益相对MLP的累计增量整体呈现稳定增长的趋势,2023年达到顶峰后出现一定程度分化。投,Wind注:数据截至2023/05/30投,Wind注:数据截至2023/05/30除了资金共同流入和中小单资金共同流出关系图,引入资金共同流出、中小单共同流入、大单共同流入和金融产品研究型页的重要声明流出图谱关系后,多空组合在年化收益、夏普比率等指标均有不同程度改善。特别是中小单共同流入关系图为模型带来了6.57%的年化收益增量。资金共同流入和中小单资金共同流出关系图在全市场范围选股的多空组年化收益、夏普几乎没有增量,IC、rankIC的增量没有体现在头部、尾部组合的区分度上。相较于单图,多图谱集成的方案对于多空组年化收益和夏普比率的提升更大,分别为8.35%和0.313。4.4.2各指数成分股多图谱集成的方案在不同指数成分股上的分层测试,相较于基准模型MLP,表现均有提升。在Top组中,中证1000成分股年化超额提升4.36%,幅度较其他指数成分股更明显。对于中证800和沪深300,提升最大的是单图方案,在中证800上对于年化超额收益的提升最明显的是大单共同流入关系图,相对MLP提升3.91%,在沪深300上的提升最明显的是共同流入关系图,提升4.21%。注:数据截至2023/05/3008%。对于中证800和沪深300,金融产品研究型页的重要声明提升最大的是大单共同流入关系图,提升幅度分别为5.26%和4.84%。d金融产品研究型4.5模型相关性分析及二次集成进一步将通过XGBOOST叠加图谱训练的模型和利用GAT叠加图谱训练的模型输出进行加和集成,得到以注:数据截至2023/05/301)即便GAT训练模型效果普遍不如XGBOOST,但是在二次集成之后,全市场上的IC、rankIC相比于叠加图谱的XGBOOST和GAT均有提升,相比XGBOOST提升0.2%~0.3%,在各个成分股上也均有IC和rankIC的增量,其中在沪深300成分股rankIC增量0.78%上下、中证800成分股rankIC增量0.5%上下、中证500成分股rankIC增量0.6%上下、中证1000成分股rankIC增量0.5%~0.6%2)各个指数成分股上的头部超额、超额夏普、多空收益、多空夏普上均有提升,其中除了沪深300增量金融产品研究型较小,其他指数成分股头部超额相比于XGBOOST集成方案增量均在1%以上,相比于原始XGBOOST模型增量最高5.84%(中证全指),超额夏普增量0.263)多空收益方面,LRI_Ens_GAT方案在中证全指成分股上多空年化60.82%,夏普3.407,相比于原始XGBOOST模型年化提升16%、夏普提升0.32,相比于XGBOOST多图谱集成(LRI)提升8%,夏普提4)沪深300成分股内虽然IC、rankIC均有增量,但是在头部超额上增量甚微,多空收益上没有提升分别考察各个单图谱训练、多图谱模型集成方案的相关性,得到以下结论:1)通过矩阵衍生因子的方式将图谱利用到XGBOOST训练中后,各个图谱训练出的模型之间的相关性较高,均在90%以上;相比之下通过GAT将图谱数据应用到模型训练过程中,各图谱训练的模型之间相关性在75%-85%之间2)叠加图谱的XGBOOST和GAT之间相关性较低,均在65%以下,从而为两类模型集成带来增量空间3)各个集成方案之间相关性普遍较高数据来源:中信建投,Wind注:数据截至2023/05/30金融产品研究型注:数据截至2023/05/30注:数据截至2023/05/30注:数据截至2023/05/30金融产品研究型页的重要声明五、组合优化及指数增强本报告进一步基于各个集成方案模型结果,在四个指数成分股内进行组合优化及指数增强策略构建。指数增强组合优化参数设置及回测结果见图表29。1)经过组合优化后,各个集成方案的增强情况、相对强弱和各个指数成分股上TOP组超额情况类似2)超额收益水平上,沪深300、中证500增强组合相比于其成分股TOP10%组合而言年化超额有1%的提升,00、中证1000则没有提升。3)在超额收益波动率上,经过组合优化之后的增强组合相比于各个成分股的头部组合而言,年化波动率从20%左右的水平降低到4%~5%注:数据截至2023/05/30图表30展示了多图谱集成方案输出在各个指数成分股上构建增强策略相比于基准XGBOOST的超额增量累计曲线。各个模型集成方案在不同成分股内的增量稳定性各有差异:1)在沪深300增强组合上,各个集成方案均在2022年3月之后出现一段实际失效,后续效果呈现波动。在此之前除了TRU_Ens_GAT之外其他集成方案增量相对稳定,各个集成方案的波动性和增量大小有所差异,其中Ens_TRI最稳健2)中证500增强组合在各个集成方案在2020年6月之前增量均较为稳定,2020下半年集体失效;2021年之后各个集成方案累计增量曲线分化较大,LRI_Ens_GAT、TRU_Ens_GAT在此区间内有较大增量。中证1000金融产品研究型页的重要声明增强组合情况与中证500较为类似3)中证800增强组合在各个机场方案上累计增量曲线分化较大,各个方案有效、失效区间差异较大注:数据截至2023/05/30金融产品研究型页的重要声明六、总结与展望量化选股存量因子维度日渐增长,实际应用中对因子的诉求已不仅是单因子评估维度的强弱,而更侧重于对原有因子的边际增量。机器学习这类非线性工具在因子合成环节的应用,使得因子底层信息源的挖掘更加充分,新的底层信息和数据源是因子增量效果的潜在途径。本报告构建了6种资金流向相似性图谱,并将其用于传统机器学习模型训练的特征工程环节、图神经网络(GAT)的训练,从而带来模型预测值I

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论