版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录一、言 1二、金向似性 2金向似图义 2在金向似系个的益相性析 3三、金向似在型训中应用 6于金向似的衍因构建 6生子合练 6型练验置结果析 7四、金向似图在图经络的用 13型绍 13型构实设计 14型果估 15组试 17型关分及次集成 20五、合化指增强 23六、结展望 25七、险示 25图表目录图表1:关型据用框架 1图表2:关型据例 2图表3:资流图似性义 2图表4:全本资向相性系谱有联的股收率关数统计 3图表5:个在样资金同出本的益率关数布 4图表6:个在样大单金同出本的收率关数布 4图表7:个在样中小资共流样下的益相系分布 5图表8:多谱练案 7图表9:滚模训意图 7图表10:叠各图联合练案市型IC、rankIC 8图表个谱方案IC量计 9图表12:叠图训方案型IC(各数分) 9图表13:叠图训方案层试果(市场) 10图表14:叠图训方案层试果(指成分股) 图表15:叠图数方案组益对模型量计 图表16:基资流关系图经络型构及数明 14图表17:各图联训练案市型IC、rankIC 15图表18:各图训方案IC量计 15图表19:各谱练案型IC、rankIC(各成分股) 16图表20:谱练案层测结果全场) 17图表21:各谱练案的额益计量全市场) 17图表22:各谱练案方的层试果(指数分股) 18图表23:各图训方案额益计量 19图表24:各模集方案组试果 20图表25:叠各单谱的XGBOOST型系数 21图表26:单谱间的关性 22图表27:叠各单谱的XGBOOST型图谱的关性 22图表28:各集方之间相性 22图表29:指增回结果 23图表30:叠图数方案额益量计 24一、引言随着存储、算力、模型方法的迭代更新为量化投资研究大规模积累有效因子提供了基础,投研中所涉及的存量因子从几百到几千不等,资产定价、因子选股步入高纬度时代。在多因子量化选股场景中,因子的角色逐步从信号转变为众多的特征,对因子的评估逐步从单因子有效性转变为相对于存量因子的边际增量。尤其在机器学习、人工智能这类非线性模型广泛应用于因子合成环节之后,即便单因子与存量因子在线性维度上能保证低相关性、克服多重共线性,但是在非线性建模场景下能带来的边际贡献也未必可观。新数据、新因子、新信量显得更加重要。关系型图谱数据在因子挖掘场景的应用的研究逐渐受到关注,已有学术文献论证了供应链、分析师共同覆-图表1:关系型数据的应用框架资料来源:在早期报告中,本系列先后探究了供应链关系、分析师共同覆盖、新闻共同报道在因子建模场景的应用,通过构建形成表征公司间相关关联特征的关系矩阵,以此对原因子库进行特征工程衍生,在模型训练和分组测试上,加入各类关系图谱衍生因子后带来模型输出的IC值和组合构建上的增量。6种表征股票之间的资金流向相似性的矩阵,在存量因子库的基础上,通过批量衍生训练传向相似性对收益预测带来增强效果。二、资金流向相似性图表2:关系型数据示例资料来源:资金流向相似性图谱定义股票和股票之间的资金流向相似性刻画了资金层面推动股价走势的交易行为的相似性,也反应的交易行为背后资金方对股票价格的预期的共性。资金流入、流出的一致性更强的两个股票潜在具有更强的关联性。与早期报告中对供应链、分析师共同覆盖、新闻共同报道关系的建模方式类似,本报告通过邻接矩阵来描述股票两两之间基于资金共同流向的关联关系,进而构建六种资金流向相似性图谱。资金流向数据基于level2高频行情数据进行衍生,根据委托、成交的资金量、成交类型等信息区分资金类型、成交类型和资金流向。图表3为构建资金流向相似性图谱的具体细节图表3:资金流向图谱相似性定义数据来源:,资金类型:根据订单成交金额大小,分为小单(散户,<4万元)、中单(中户,4万-20万)、大单(大户,20-100万)、特大单(机构,>100万)成交类型:根据成交订单对应买卖双方的委托时间先后,将先来的委托订作为被动方、后来的为多订单作为主动方,从而将成交价>=卖价的成交称为主动买入、成交价<=买入订单价格的成交称为主动卖出。当日的资金净流入=当日主动买入成交额-当日主动卖出成交额。净流入大于0为资金净流入,反之为资金净流出。根据某天资金净流入、流出的情况,可以计算股票两两之间资金联动的一致性情况。以资金共同流入图谱为例,具体构建步骤细节为:22个交易日内,两个股票共同出现资金净流入的交易日数量接矩阵中两两股票的对应位置里填入资金共同净流入的交易日数量对所有股票重复上述步骤,最终的邻接矩阵的数值表示两只股票共同出现资金净流入的交易日数量1的股票作为图谱上的邻居基于资金流向相似性图谱,最终可以构建新的关系矩阵𝑀𝑐,用以表征股票之间的资金共同流向关联,即⋯ 𝑀𝑐=[𝑀𝑐21 ⋯ 𝑀𝑐𝑛1
⋯ ⋯ ⋯𝑀𝑐2𝑛⋯ ⋯𝑀𝑐𝑛𝑛其中,𝑀𝑐𝑖𝑗表示第𝑖个股票与第𝑗个股票的资金共同流向关联度,即两个股票原始资金共同流向交易日天数类似地,根据不同资金类型、流入流出情况依次构建6种图谱及其对应邻接矩阵矩阵。存在资金流向相似关系个股的收益率相关性分析2018年-2021年,以每半年的A645、6。图表4:全样本与资金流向相似性关系图谱上有关联的个股的收益率相关系数统计数据来源:,注:数据截至2021/12/31报告类型六个关系图中,资金共同流出、大单资金共同流出、中小单资金共同流出三种流出类图谱上存在的关联个股之间的相关系数分布相比于全市场有明显的增量。三种资金流出类样本的收益率相关系数的均值和各个分位1%-5%上相对于全市场有不同程度的右移动。图表5:个股在全样本与资金共同流出样本下的收益率相关系数分布数据来源:,注:数据截至2021/12/31图表6:个股在全样本与大单资金共同流出样本下的收益率相关系数分布数据来源:,注:数据截至2022/06/30图表7:个股在全样本与中小单资金共同流出样本下的收益率相关系数分布数据来源:,注:数据截至2022/06/30三、资金流向相似性在模型训练中的应用基于资金流向相似性的衍生因子构建本报告进一步对利用前文所述的资金流向相似性关系矩阵Mc,对因子进行处理,首先对各个元素除以其所在行之和,得到权重矩阵Mw。特定因子F为各个股票对应的特定因子值,是一个n×1的向量(下称原有因子),即1F1F1F=[⋯]Fn其中,Fi表示第i个股票的因子值。对于上述因子向量F进行如下运算,可以得到对应的衍生因子Fc:Fc=Mw∗F其中,Fc为集成了资金流向相关股票的衍生因子值,也是一个n×1的向量(下称衍生因子)。对于某只特定股票i,其原有因子值为Fi,则衍生因子值为Fci=∑nMwijFi。衍生因子的因子值代表了对于每个股票而言,其在资金流向相似性关系网上有关系的个股的因子值根据他们之间的关联度进行加权求和的结果。衍生因子联合训练在模型训练中,在模型训练环节,对于给定的原始样本特征X=[FT,FT,...,FT],根据因子图谱衍生方法得1 2 M到衍生特征维度Xw=Mw∗X=[Mw∗FT,Mw∗FT,...,Mw∗FT]。然而进一步将原始样本特征和衍生的特征维1 2 M度拼接后作为新的样本特征𝑋̃=X,w]=FT,FT,...,FT,Mw∗FT,Mw∗FT,...,Mw∗FT]1 2 M 1 2 M对于某个交易日上股票,其对应的样本Xi代表了该股票自身信息在样本空间的特征,𝑖̃代表了在资金流[XXc]作为样本特征进行模型训练和预测,意味着利用股票自身信息以及与其有资金流向相似性关联的个股的信息来联合i的收益率。在模型训练中,图谱集成方案分为单图谱方案和多图谱方案:单图谱将利用原始特征X训练得到的模型y=g(X)作为基准,考察联合训练模型与原始模型的集成y()+(𝑋̃̃)的增量。8。图表8:多图谱训练方案资料来源:模型训练实验设置及结果分析本小节基于给定存量因子库的因子,平行对比存量因子库的单独应用、叠加资金流向相似性图谱联合训练的多种方案,评估资金流向相似性图谱的衍生因子在传统机器学习建模过程种为存量因子带来的增量。模型训练实验设置XGBOOST10个交易日训练一次模型,用于1022个交易日计算得到的资金流向相似性图谱进行因子衍生9:图表9:滚动模型训练示意图模型类型XGBOOSTbooster:gbtreecolsample_bytree:0.7learning_rate:0.1超参数
max_depth:7min_child_weight:10n_estimators:100 subsample:0.6 标签 收益率 因子:截面winsorize左右5%缩尾、标准化预处理标签:取rank分位数资料来源:
样本集:剔除缺失值比例大于20%的样本每10个交易日重新训练一次模型训练设置每次使用300个交易日的样本作为训练集每次使用最近22个交易日计算得到的资金流向相似性图谱进 造 为了评估资金流向相似性关系信息对因子库、模型和策略带来的增量,本文采取以下平行对照实验:RawModel:每次训练将根据上述流程使用原始因子作为个股的样本特征。叠加图谱信息进行训练:每次训练在原始因子基础上,逐一利用每种资金流向相似性关系提取的矩阵进行+2用于个股的收益率预测。叠加衍生因子模型输出的有效性分析图表10展示了各个图谱的训练方案在中证全指成分股上与未来10日收益率的IC、rankIC情况:IC9.38%~9.52%,相对原始因子模0.1~0.2%IC,rankIC均有不同程度的增量IC9.60%~9.68%,相对原始因子模型输出提升0.3%左右。图表11展示了各个方案相对原始模型的IC增量累计曲线:单图谱方案在2020年前有较为稳定的IC2020年后IC累计增量出现集体失效且不同方案出现分化。资金共同流出、大单资金共同流出图谱的增强效果在整个测试周期内较为稳健。大单资金共同流入图谱在2022年7月之前累计增强效果最强,但之后其增量出现失效,在周期内增强效果不稳定。LRITRUIC图表10:叠加各个图谱联合训练方案全市场模型IC、rankIC数据来源:,注:数据截至2022/12/30图表11:各个图谱训练方案IC增量累计数据来源:,注:数据截至2023/05/30叠加图谱模型输出对各成分股的有效性分析IC、rankIC提升,IC、rankIC300IC8005001000增量渐弱。不同类型的图谱在各个指数成分股上增强效果的相对强弱的差异可能来源于:市值较大的股票的资金共同流向来源于确定性的驱动因素,因此股价走势的联动性和资金流向相似性的关系更紧密。市值较小的股票的资金共同流向有更多的随机性。图表12:叠加图谱训练方案模型IC(各指数成分股)数据来源:,注:数据截至2023/05/30模型输出分组测试10(剔ST和停牌的股票),2017/06/01-2023/05/3010组、市值加权、100.15%10T+0日-T+910个子组合的收益求平均后作为最终该分组的收益。分层测试结果见错误!未找到引用源。图表13:叠加图谱训练方案分层测试结果(全市场)数据来源:,注:数据截至2023/05/30原始因子分别叠加三个资金共同流入图谱的关系后,头部组合在年化超额收益、夏普比率均有不同程度改善。三个资金共同流入图谱在TOP组年化超额、超额夏普上均有提升,资金共同流入图谱为模型训练带来2.26%的超额提升、夏普增量0.1。原始因子分别叠加三个资金共同流入图谱的关系后,多空组合在年化收益、夏普比率等指标均有不同程度5.31%的年化收益增量。三个资金共同流出图谱在全市场范围选股的多空组年化收益、夏普几乎没有增量。2.74%、2.9%3.12%,TRUTOP30050080010003种多图谱模型输出的效果,结果14、15:图表14:叠加图谱训练方案分层测试结果(各指数成分股)数据来源:,注:数据截至2023/05/30图表15:叠加图谱数据方案TOP组收益相对原始模型增量累计10001000300500中证800成分股累计收益增量数据来源:,注:数据截至2023/05/30800TOP组超额提升幅度TRI3.5%3003%500、中证10002%左右。2)多空收益上中证1000800成分股增量5%-6%500上增量2300上增量4.56.5%。rankICICTOP1000TOP20179月后一直呈现稳定持续的增量;沪深300TOP2019月之前几乎没有增量,11500TOP2020920217月之间出现失效,20217800TOP201920211月-7月出现不同程度的分化。四、资金流向相似性图谱在图神经网络上的应用模型介绍(一)基于注意力机制的图神经网络是图中所有节点的集合,在本研究中表示企业,EGraphAttentionNetwork模型来学习图结构,使得节点可以在聚合过程中考虑到不同关联企业的重要性差异。GraphAttention1 2 N 1∈1 2 N 2、注意力α计算:通过计算节点对之间的注意力权重,确定节点对当前节点的重要性。ijijα=softmax(eij)=ij
exp(LeakyRelu(⃑aT[W⃑ℎi||W⃑ℎj]))i∑k∈Nexp(LeakyReluTi||k]))i其中,eijijsoftmax∈R2F′和共享权重矩阵W∈RF′×F进行参数化。Niii的邻接节点计算注意力系数。3、特征聚合:使用注意力权重对相邻节点的特征进行加权聚合,得到当前节点的表示。′i=σ(∑αijj)j∈Ni其中,′i即为输出的高阶特征,维度为’。4、输出预测:通过进一步的层级结构和激活函数,对聚合后的节点表示进行预测或分类。(二)隐式图学习已有学术文献论证了供应链、分析师共同覆盖、行业等企业间关系型数据在股票市场中的有效性,但是实际场景中,企业间关系类型并非单一,根据先验知识,将预定义好的关系图数据作为模型的输入很难捕获所有BarraCNE5风格因子+LeakyRelu。ti与企业j之间的潜在关系表示为:Rt=LeakyReLU(sTW[vt||vt])i,j r ri j其中,vt和vt分别是企业i和企业j的因子特征,维度为D,将两者连接起来,使用一个维度为(D’,2D)i j的矩阵WrD’D’维的向量srWr和向量sr进行参数化,由此,可以得到隐式图的邻接矩阵,即为一个元素为Ri,jN×N矩阵。模型结构及实验设计MLP如下图所示,输入分别为因子数据和资金流向相似性图谱邻接矩阵。图表16:基于资金流向关系的图神经网络模型架构及参数说明资料来源:为了评估关系图谱对因子库、模型和策略带来的增量,本文采取以下平行对照实验:MLP12864,输出维度1。MLP1MLP11)MLP结报告类型构完全相同。Ens_GAT:CashOut、MedSmallCoInAct、ExNLargeCoInAct三个图谱训练结果进行集成。模型结果评估为了衡量经过资金流向相关性矩阵相对于基准模型的提升,研究评估了引入图神经网络所训练模型在测试(MP10日收益率的IC和raI。ICMLP模型输出提升0.16~1.18%IC8.01%MLP1.24%ICRankIC均有不同程度的增量。20182022ICIC图表17:各个图谱联合训练方案全市场模型IC、rankIC数据来源:, 注:数据截至2023/5/30图表18:各个图谱训练方案IC增量累计数据来源:,注:数据截至2023/05/30引入资金流向相似性图谱所训练模型,在各指数成分股内均能带来不同程度的IC、rankIC提升,并且IC、rankIC波动性降低:300IC0.76~2.09%,和叠加资金流向相似性的衍生因1000MLP模型输出IC0.98%~1.36%5000.39%~1.61%8000.51%~1.79%从单个图谱来看,在不同指数成份股中,资金共同流出和大单共同流入关系图的提升效果最优;多图谱集成方案(Ens_GAT)对在此基础上能有进一步增量图表19:各图谱训练方案模型IC、rankIC(各指数成分股)数据来源:,注:数据截至2022/12/30分组测试全市场除了中小单资金共同流出(MedSmallCoOutAct)模型相MLP3.79%0.177。4.39%2.19%。TOPMLP的累计增量整体呈现稳定增长的趋势,2023年达到顶峰后出现一定程度分化。图表20:谱训练方案分层测试结果(全市场)数据来源:, 注:数据截至2023/05/30图表21:各图谱训练方案的超额收益累计增量(全市场)数据来源:, 注:数据截至2023/05/30除了资金共同流入和中小单资金共同流出关系图,引入资金共同流出、中小单共同流入、大单共同流入和流出图谱关系后,多空组合在年化收益、夏普比率等指标均有不同程度改善。特别是中小单共同流入关系图为模型带来了6.57%的年化收益增量。I、rankIC的增量没有体现在头部、尾部组合的区分度上。相较于单图,多图谱集成的方案对于多空组年化收益和夏普比率的提升更大,分别为8.35%和0.313。各指数成分股MLP组中,10004.36%800300,提升最大的800MLP3.91%,3004.21%。图表22:各图谱训练方案方案的分层测试结果(各指数成分股)数据来源:,注:数据截至2023/05/30100010.08%800300,提升最大的是大单共同流入关系图,提升幅度分别为5.26%和4.84%。图表23:各个图谱训练方案超额收益累计增量数据来源:, 注:数据截至2023/05/30模型相关性分析及二次集成XGBOOST图表24:各个模型集成方案分组测试结果数据来源:,注:数据截至2023/05/30XGBOOSTIC、rankIC相比于XGBOOSTXGBOOST0.2%~0.3%,ICrankIC300rankIC0.78%800rankIC0.5%500rankIC0.6%1000rankIC0.5%~0.6%300增量较小,其他指数成分股头部超额相比于XGBOOST集成方案增量均在1%以上,相比于原始XGBOOST模型增量最高5.84%(中证全指),超额夏普增量0.26多空收益方面,LRI_Ens_GAT60.82%3.407,相比于原始XGBOOST16%0.32XGBOOST多图谱集成(LRI)0.2300IC、rankIC均有增量,但是在头部超额上增量甚微,多空收益上没有提升分别考察各个单图谱训练、多图谱模型集成方案的相关性,得到以下结论:XGBOOST90%将图谱数据应用到模型训练过程中,各图谱训练的模型之间75%-85%之间XGBOOST65%以下,从而为两类模型集成带来增量空间各个集成方案之间相关性普遍较高图表25:叠加各个单图谱的XGBOOST模型相关系数数据来源:,注:数据截至2023/05/30图表26:单图谱GAT之间的相关性数据来源:,注:数据截至2023/05/30图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国混合绣刺绣机数据监测研究报告
- 2024至2030年中国框架木箱行业投资前景及策略咨询研究报告
- 2024至2030年中国振动时效仪数据监测研究报告
- 2024至2030年中国原花粉粉粒行业投资前景及策略咨询研究报告
- 《虚拟专用网服务合同》
- 2024-2025学年河南省驻马店市确山县人教版三年级上册期中考试数学试卷
- 内蒙古呼和浩特市(2024年-2025年小学五年级语文)统编版综合练习((上下)学期)试卷及答案
- 内蒙古呼伦贝尔市(2024年-2025年小学五年级语文)统编版期中考试((上下)学期)试卷及答案
- 【培训课件】形势与政策中国房地产业去向何方
- 甘肃省张掖市(2024年-2025年小学五年级语文)人教版摸底考试(上学期)试卷及答案
- 钢结构工程冬季施工方案
- 2024-2030年中国度假酒店行业未来发展趋势及投资经营策略分析报告
- 2024-2030年中国安防行业发展现状及竞争格局分析报告权威版
- ktv营销业绩提成合同模板
- 英语-重庆市2025年普通高等学校招生全国统一考试11月调研试卷(康德卷)试题和答案
- 桩基及基坑支护工程技术施工方案(三篇)
- 招聘笔试题与参考答案(某大型国企)2024年
- 安徽理工大学《岩土力学与工程》2021-2022学年第一学期期末试卷
- 有限空间应急演练专项方案
- 2024-2030年中国演艺行业发展分析及发展前景与趋势预测研究报告
- 2024年二级建造师继续教育题库及答案(500题)
评论
0/150
提交评论