金工深度研究:Attention is indeed all you need_第1页
金工深度研究:Attention is indeed all you need_第2页
金工深度研究:Attention is indeed all you need_第3页
金工深度研究:Attention is indeed all you need_第4页
金工深度研究:Attention is indeed all you need_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

证券研究报告证券研究报告金工Attentionisindeedallyouneed李子钰+(86)7552398研究员SACNo.S0570519110003SFCNo.BRV743PhDhekang@+(86)212897李子钰+(86)7552398研究员SACNo.S0570519110003SFCNo.BRV743PhDhekang@+(86)2128972039研究员SACNo.S0570520080004SFCNo.BRB318研究员 林晓明SACNo.S0570516010001 linxiaoming@SFCNo.BPY421 +(86)7558208人工智能系列之69:注意力机制应用于量化选股多类场景选股各类场景的运用。分别测试:(1)任务间注意力:提取多任务学习中的学习截面因子的股票间关Transformer(1)任务间注意力提升稳定;(2)股票间注意力提升主要体现在因子多头;(3)Transformer时序注意力提升主要体现在合成因子及放宽组合优化约束情景。注意力机制在多数场景有效,Attentionisindeedallyouneed。自注意力:权重再分配表征数据内部关系涉及权重分配和关系信息表征,都有可能引入注意力结构,万物皆可Attention任务间注意力胜在稳定;股票间注意力的提升体现在合成因子多头MLPTransformer编码器,利用注意RankIC子任务集成上观察到优势。时序注意力:TransformerALSTM,放宽组合优化约束后提升明显因子时间序列通常采用循环神经网络编码,将LSTM替换为ALSTM和Transformer,引入时序注意力编码时序信息。对比单任务学习基线和两类ALSTM

分析师名录累计RankIC:集成模型-累计RankIC:集成模型-基线模型累计加权RankIC:集成模型-基线模型4.03.53.02.52.01.51.00.52011-01-042012-01-042013-01-042014-01-042015-01-042016-01-042017-01-042018-01-042011-01-042012-01-042013-01-042014-01-042015-01-042016-01-042017-01-042018-01-042019-01-042020-01-042021-01-042022-01-042023-01-04资料来源:朝阳永续,,多类注意力集成与基线指增超额净值TransformerTransformer年化超额收益率的提升,TransformerLSTMALSTM。模型集成:时序注意力提供较多增量信息,集成是“免费的午餐”将基线模型和三类注意力模型的预测值等权集成。观察与基线模型相关性,任务间注意力>股票间注意力>RankIC

800%2011-01-042012-01-042011-01-042012-01-042013-01-042014-01-042015-01-042016-01-042017-01-042018-01-042019-01-042020-01-042021-01-042022-01-042023-01-04

30%右轴)右轴)右轴) 20%15%10%5%0%-5%-10%-15%RankIC25.8%28.6%,17.2%18.2%2.79提升至0vwap因素影响。

注:回测期2011-01-04至2023-07-31,基准为中证500资料来源:朝阳永续正文目录导言 4注意力在因子选股中的多种表现形式 5注意力系数:归一化相似度 5自注意力:权重再分配表征数据内部关系 5多头自注意力:多组参数衡量相似度 6场景一:任务间注意力 7场景二:股票间注意力 7图注意力网络 7Transformer 7时序注意力 9方法 10结果 12任务间注意力和股票间注意力 12合成因子和指增组合指标 13合成因子组相对净值 13指数增强组合超额净值 14时序注意力 15原始组合优化约束条件 15放宽组合优化约束条件 17多类注意力集成 18总结 20参考文献 21风险提示 21图表目录图表1:Self-Attention示意图 5图表2:Multi-HeadAttention示意图 6图表3:多任务学习(左)和任务间注意力(右)网络结构示意图 7图表4:截面因子Transformer网络结构示意图 8图表5:因子时间序列LSTM(左)和ALSTM(右)网络结构示意图 9图表6:因子时间序列Transformer网络结构示意图 9图表7:主要测试模型和相关参数 10图表8:选股模型构建方法 10图表9:选股模型使用的42个因子 图表10:任务间注意力和股票间注意力合成因子评价指标(回测期2011-01-04至2023-07-31) 12图表11:任务间注意力和股票间注意力指增组合回测绩效(回测期2011-01-04至2023-07-31,基准为中证500)....................................................................................................................................................................................12图表12:任务间注意力和股票间注意力RankIC均值 13图表13:任务间注意力和股票间注意力多头加权RankIC均值 13图表14:任务间注意力和股票间注意力信息比率 13图表15:任务间注意力和股票间注意力超额收益Calmar比率 13图表16:任务间注意力和股票间注意力10日预测组相对净值 13图表17:任务间注意力和股票间注意力20日预测组相对净值 13图表18:任务间注意力和股票间注意力10日预测与20日预测集成组相对净值 14图表19:任务间注意力和股票间注意力10日预测组合超额净值 14图表20:任务间注意力和股票间注意力20日预测组合超额净值 14图表21:任务间注意力和股票间注意力10日预测与20日预测集成组合超额净值 14图表22:时序注意力合成因子评价指标(回测期2011-01-04至2023-07-31) 15图表23:原始约束条件下,时序注意力指增组合回测绩效(回测期2011-01-04至2023-07-31,基准为中证500)....................................................................................................................................................................................15图表24:放宽约束条件下,时序注意力指增组合回测绩效(回测期2011-01-04至2023-07-31,基准为中证500)....................................................................................................................................................................................15图表25:原始约束条件下,时序注意力合成因子评价指标 15图表26:原始约束条件下,时序注意力指增组合回测指标 16图表27:时序注意力组相对净值 16图表28:原始约束条件下,时序注意力组合超额净值 16图表29:放宽组合优化约束条件 17图表30:放宽约束条件下,时序注意力指增组合回测指标 17图表31:放宽约束条件下,时序注意力组合超额净值 17图表32:子模型截面预测值相关系数均值 18图表33:指增组合日超额收益相关系数 18图表34:集成模型合成因子评价指标(回测期2011-01-04至2023-07-31) 18图表35:集成模型指增组合回测绩效(回测期2011-01-04至2023-07-31,基准为中证500) 18图表36:集成模型与基线模型累计RankIC差值 19图表37:集成模型超额收益表现(回测期2011-01-04至2023-07-31,基准为中证500) 19导言注意力(Attention)是近年来人工智能领域影响深远的创新之一。以自注意力为基础的TransformerGPTCNN在计算机视觉的统治地位。注意力为何能在各领域实现模型性能上的提升?注意力的本质是权重分配,模拟人类视觉原理,使得网络加工信息时关注重要部分,忽略次要部分,实现更准确的信息提取。自注意力(Self-Attention)是使用较广泛的注意力实现形式。自注意力通过计算输入信息中各元素间的相似度作为权重,将其他元素的信息聚合到自身元素。自注意力使得模型在处理单个元素时,同时考虑全局信息。这里“元素”的定义取决于具体场景:(1)自然语言处理中,元素可以是单个样本语句中的不同单词;(2)图像处理中,元素可以是单个样本图片中的不同像素;(3)(4)多任务学习Attention量化投资实践中,注意力的使用却并未如其他领域那么普遍。业内当前对注意力的应用主要集中在:(1)ALSTM、AGRU、Transformer等结构对时间序列进行编码,如华泰金(-5-()使用图注意力网(2022-04-11)等。注意力作为一种基础运算,可以灵活运用于神经网络的各环节,远不限于上述两点,值得深入挖掘。本文探索注意力机制在量化选股中的应用,测试(1多任务学习引入任务间注意力,()ransfomer()TM和rasfomer编码因子时间序列。结果表明:(1)任务间注意力提升全面且稳定;(2)Transformer有一定提升,主要体现ALSTMLSTMtetionsineedalouneed。注意力在因子选股中的多种表现形式本章首先简要回顾注意力的基础概念,随后介绍注意力在因子选股场景中的不同表现形式:任务间注意力、股票间注意力、时序注意力。注意力系数:归一化相似度注意力系数的本质是两个向量的归一化相似度。如果ijijj分配适当权重。两个向量hi、hj的相似度可以表示为:𝑒𝑖𝑗=𝑠(ℎ𝑖,ℎ𝑗)相似度函数s的定义较灵活,常用以下几种形式:1. 加性:s(ℎ𝑖ℎ𝑗)=𝑣tanh(𝑊ℎ𝑖+𝑈ℎ𝑗),vW、U为可学习的参数;2. 乘性:s(ℎ𝑖ℎ𝑗)=ℎ𝑖𝑊ℎ𝑗,W为可学习的参数;𝑖3. 点积:s(ℎ𝑖ℎ𝑗)=ℎ𝑇ℎ𝑗;𝑖𝑖ℎ)=𝑖 𝑗4. 缩放点积:s(ℎ𝑖ℎ)=𝑖 𝑗√𝑑ℎ随后,参考向量hi与所有向量的相似度,对hi与hj的相似度eij进行归一化,得到hi与hj的注意力系数αij:exp(𝑒𝑖𝑗)𝛼𝑖𝑗=𝑠𝑜𝑓𝑡𝑚𝑎𝑥𝑗(𝑒𝑖𝑗)=∑exp(𝑒)𝑘 𝑖𝑘自注意力:权重再分配表征数据内部关系理解注意力机制的经典场景是信息检索问题。Q代表查询(Query)序列,K、V分别代表是待搜索的商品名称,K是全部商品名称,VqKkiviq的注意力:𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑞,(𝐾,𝑉))=∑ exp(𝑠(𝑞,𝑘𝑖))𝑖∑𝑗exp(𝑠(𝑞,𝑘𝑗))

𝑣𝑖图表1:Self-Attention示意图资料来源:Key、KeyX的自注意力计算步骤如下:Xxi,分别乘以WQWKWVQi、Ki、Vi。WQWKWVQ、K、V。对于X的每个元素ii和其他元素如j的注意力系数j

这里以点积为例注意力系数αij为权重,对所有元素(含自身)的值Vj加权求和得到xi的注意力,视作xi的新值:exp(𝑄𝑖𝐾𝑗𝑇)𝛼𝑖𝑗=∑exp(𝑄𝐾𝑇)𝑘 𝑖𝑘𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑄𝑖,𝐾,𝑉)=∑𝛼𝑖𝑗𝑉𝑗𝑗将上述过程写成矩阵形式,实现并行计算;QKTdk的平方根使方差归一化:𝑄𝐾𝑇𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑄,𝐾,𝑉)=𝑠𝑜𝑓𝑡𝑚𝑎𝑥()𝑉√𝑑𝑘在自然语言处理场景下,通常是一条文本内的各单词;而在因子选股场景下,既可以是一条时间序列内的各时刻,又可以是一个截面内的各股票,还可以是一组网络内的各模块。多头自注意力:多组参数衡量相似度上述自注意力计算过程,使用同一套自由参数WQWKWV,相当于单一的相似度测度,因此称单头注意力(nl-HeadAttnton。实际上,相似度可以有多种测度,使用多组自由参数计算注意力的过程称多头注意力(Mt-Headttention具体而言,对于xi,设置h组不同的参数(𝑊𝑄、𝑊𝐾、𝑊𝑉)、(𝑊𝑄、𝑊𝐾、𝑊𝑉)、…、(𝑊𝑄、1 1 1 2 2 2 ℎ𝑊𝐾𝑊𝑉)V的维度kdv至原来的(也称为d)ℎ ℎ进行拼接,并乘上参数矩阵W0,得到最终的注意力:𝑀𝑢𝑙𝑡𝑖𝐻𝑒𝑎𝑑𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑄,𝐾,𝑉)=𝑐𝑜𝑛𝑐𝑎𝑡(ℎ𝑒𝑎𝑑1,ℎ𝑒𝑎𝑑2,…,ℎ𝑒𝑎𝑑ℎ)𝑊0多头自注意力的输出维数相比单头自注意力没有改变,复杂度更高,逻辑上也更合理,例如衡量股票相似度可以从基本面角度,也可以从技术面角度,理应设置多头注意力。图表2:Multi-HeadAttention示意图资料来源:场景一:任务间注意力67:AI(2023-08-06)中,我MLP1020日收益率的排序。多任务学习机制采用传统硬参数共享方式,任务共享层后直接连接任务特异层,两项子任务由独立的任务特异层学习,不考虑任务间关系。然而,任务间关系信息可能有助于下游任务。10日收益率预测学习到的表征,可能对20日收益率预测有意义,反之亦然。我们参考Ma&Tan(2022),向原多任务学习网络引入任务间注意力模块。任务共享层的输出,依次通过特征全连接层、拼接操作、任务全连此处采用缩放点积注意力特异层。图表3:多任务学习(左)和任务间注意力(右)网络结构示意图资料来源:场景二:股票间注意力图注意力网络传统因子选股模型将股票视作独立样本,然而股票未来收益率不仅与股票自身有关,也受到股票间相互关系的驱动。图注意力网络(GraphAttentionNetworks,GAT)使用股票间自注意力模块Qlib(--5(--58(2022-07-07)展示图注意力网络的多种应用方法,本文不再赘述。Transformer除了图注意力网络外,另一种通过注意力机制学习股票间关系信息的方式是Transformer。此处应用Transformer的难点在于数据维度的处理,以下展开介绍。Transformer模型接收的是序列形式的数据,输入神经网络张量的形状可以表示为(seuncelengt,btchsie,moeldmeson,其中seuncelegth代表序列长度,即每个序列中的元素数量;batchsize代表批量大小,即每次输入神经网络的序列个数;modeldimension代表特征维度,即序列中每个元素包含的特征数。传统自然语言处理任务中,sequencelength对应输入句子的长度,batchsize对应单次输入神经网络的句子数量,modeldimensionsequencelengthTransformer作为序列维度,从而提取出该维度上每个元素对于其他元素的注意力特征。这里我们以单(即单个交易日所有股票的因子数据作为一个样本,sequencelength对应该时间点的股票数量,modeldimension对应因子数量,该方法提取的是股票间注意力。sequencelengthbatch时需要对较短的样本进行补齐,并在后续训练时将补齐处的数据用填充掩码(paddingmask)Transformer中的位置编码,这是因Transformer标准的缩放点积注意力。本文引入股票间注意力的方法是将多任务学习的任务共享层由MLP改为Transformer。TransformerTransformerTransformer编码器由多头注意LayerNormFeed-Forward(核心是两个全连接层LayerNorm层依次组成。图表4:截面因子Transformer网络结构示意图资料来源:时序注意力若输入数据为因子的时间序列,常用的网络结构是(1)循环神经网络,(2)包含时序注意力的循环神经网络如LTGRU(rasfomrLT(ttntioalLTM)Transformer模型,提取因子日频时间序列中的时序关系信息。AGRU(AttentionalGRU)模型。ALSTMLSTM层的最后一层隐状态时间序列后(此处采用加性注意力LSTM刻的隐状态拼接,送至输出层。图表5:因子时间序列LSTM(左)和ALSTM(右)网络结构示意图资料来源:rafomerseunceengthatchsiemoeldimension维度对应因子。Transformer包含位置编码(PositionalEncoding)和两个标准Transformer编码器,其中每个Transformer编码器由多头注意力层、LayerNorm层、Feed-Forward层(核心是两个全连接层、LayerNorm层依次组成。注意力的定义采用Transformer标准的缩放点积注意力。图表6:因子时间序列Transformer网络结构示意图资料来源:方法500主要测试模型和相关参数、构建方法、因子定义如下列表格所示。网络结构请见前一章图表。图表7:主要测试模型和相关参数注意力类型 主体模型 注意力实现方式 其他参数任务间注意力MLP+多任务学习 增加多头缩放点积自注意力层 MLP:dim_hidden=256;batch_size=1(tradingday);Self-Attention:num_heads=4;股票间注意力MLP+多任务学习 增加Transformer编码器模块,含多头缩放点积自注意力层时序注意力 LSTM+单任务学习增加单头加性自注意力层(ALSTM)或增加Transformer编码器模块资料来源:

MLP:dim_hidden=256;batch_size=32(tradingdays);Transformer:num_blocks=2;num_heads=2;dim_feedforward=64;dropout=0.1;seq_len取每个batch内各截面股票数量的最大值;LSTM:dim_hidden=64,num_layers=2;batch_size=1024(stocks)ALSTM:num_heads=1;Transformer:num_blocks=2;num_heads=2;dim_feedforward=256;dropout=0.1;图表8:选股模型构建方法步骤 参数 参数值构建股票池股票池 全A股;剔除上市未满63个交易日个股,剔除ST、*ST、退市期个股;每个季末截面期,在未停牌个股中,筛选过去1年日均成交额和日均总市值均排名前60%个股构建数据集特征 因子截面数据:T日42个基本面和量价因子因子时序数据:T-20日至T日42个基本面和量价因子标签 单任务学习:T+11日相对于T+1日收盘价收益多任务学习:T+11T+1日收盘价收益率T+21T+1日收盘价收益率因子预处理特征标签5倍MAD缩尾;zscore标准化;缺失值填为0;不做中性化剔除缺失值;截面排序数标准化训练流程测试集完整区间20110104~20230731训练、验证、测试集划分训练集252*6个交易日,验证集252*2个交易日,测试集126个交易日;如第1期训练集20020910~20081205,验证集20081208~20101231,测试集20110104~20110711;第2期训练集20030325~20090616,验证集20090617~20110711,测试集20110712~20120113特殊处理剔除训练集、验证集最后10或20个交易日样本,防止信息泄露损失函数batch学习率优化器早停次数随机数种子点加权mse(根据收益率衰减加权)每个交易日的全体股票视作一个batch0.0001adam205组求均值构建组合基准中证500指数优化目标(1)10(2)20(3)(等权均值)分别构建组合组合仓位1个股权重下限0个股偏离权重约束[-1%,1%]行业偏离权重约束[-1%,1%]风格偏离标准差约束[-1%,1%]风格因子对数流通市值(预处理:5倍MAD缩尾,zscore标准化)调仓周期每5个交易日单次调仓单边换手率上限15%成分股权重约束无回测单边费率交易价格特殊处理0.002vwap停牌不买入/卖出;一字板涨停不买入;一字板跌停不卖出;其余股票重新分配权重资料来源:图表9:选股模型使用的42个因子类别 名称 计算方式估值bp_lfep_ttmocfp_ttmdyr121/市净率1/市盈率(TTM)1/净经营性现金流(TTM)近252日股息率预期con_eps_gcon_roe_gcon_np_g一致预期EPS(FY1)近63日增长率一致预期ROE(FY1)近63日增长率一致预期归母净利润(FY1)近63日增长率反转ret_5dret_1mexp_wgt_return_3m近5日区间收益率近21日区间收益率近63日收益率以换手率指数衰减加权波动率std_1mvstd_1mivr_ff3factor_1m21日标准差21日标准差残差收益率(收益率对万得全A、市值、BP因子收益率回归)近21日标准差换手率turn_1mstd_turn_1mbias_turn_1m换手率近21日均值换手率近21日标准差换手率近21日均值/近504日均值日间技术std_ret_10dstd_vol_10dstd_turn_10dcorr_ret_closecorr_ret_opencorr_ret_highcorr_ret_lowcorr_ret_vwapcorr_ret_volcorr_ret_turncorr_vol_closecorr_vol_opencorr_vol_highcorr_vol_lowcorr_vol_vwap10日标准差10日标准差10日标准差10日相关系数10日相关系数10日相关系数10日相关系数收益率和均价近10日相关系数10日相关系数10日相关系数10日相关系数10日相关系数10日相关系数10日相关系数成交量和均价近10日相关系数日内技术low2highvwap2closekmidklenkmid2kupkup2klowklow2ksftksft2low/highvwap/close(close-open)/open(high-low)/open(close-open)/(high-low)(high-greater(open,close))/open(high-greater(open,close))/(high-low)(less(open,close)-low)/open(less(open,close)-low)/(high-low)(2*close-high-low)/open(2*close-high-low)/(high-low)资料来源:朝阳永续,,结果任务间注意力和股票间注意力对比多任务学习基线、任务间注意力和股票间注意力模型,主要结论如下:RankICRankICIR、组合年化1020日收益预测以及两者等权集成上。RankICRankICIR20日1020日预测等权集成的组合回测绩效有提升。总的看,任务间注意力的提升胜在稳定;股票间注意力的提升突出体现在合成因子多头。图表10:任务间注意力和股票间注意力合成因子评价指标(回测期2011-01-04至2023-07-31)IC

加权 加权Top组精Bottom组精Top组年化Bottom组年化多空对冲年化

基准收值 均值 均

均值ICIRRankICIR

ICIRRankICIR

确率 收益

收益率

收益率 益率10日预测多任务学习基线9.3%11.2%7.8%9.7%0.881.030.750.9156.2%60.6%26.0%-31.5%28.7%6.4%任务间注意力9.3%11.2%7.7%10.2%0.881.030.740.9456.1%60.5%25.8%-31.5%28.7%6.4%股票间注意力9.2%11.4%7.8%10.5%0.840.990.730.9256.4%60.4%27.1%-30.1%28.6%6.4%20日预测多任务学习基线9.1%11.4%7.4%9.7%0.821.000.670.8756.4%60.6%25.3%-31.3%28.3%6.4%任务间注意力9.1%11.3%7.4%10.2%0.820.990.670.9056.4%60.6%25.3%-31.4%28.3%6.4%股票间注意力9.1%11.5%7.5%10.4%0.800.970.670.8956.7%60.5%26.6%-30.5%28.5%6.4%10日预测与20日预测集成多任务学习基线9.3%11.4%7.6%9.7%0.851.020.710.9056.3% 25.8%-31.6%28.7%6.4%任务间注意力 9.2%11.3%7.6%10.2%0.851.010.700.9256.3% 25.7%-31.6%28.7%6.4%股票间注意力 9.2%11.5%7.7%10.5%0.820.980.700.9156.6% 26.9%-30.6%28.7%6.4%注:IC使用10日收益率计算资料来源:朝阳永续图表11:任务间注意力和股票间注意力指增组合回测绩效(回测期2011-01-04至2023-07-31,基准为中证500)年化超额

超额收益

相对基准年化双边年化收益率年化波动率夏普比率最大回撤Calmar比率

收益率10

误差信息比率

Calmar

月胜率

换手率任务间注意力股票间注意力任务间注意力股票间注意力

18.82% 26.03% 0.72 49.18% 0.381.621.701.841.621.701.849.26%10.18%9.66%2.676.38%6.38%6.19%17.00%15.66%17.32%17.44% 26.07% 0.67 47.64% 0.373.263.822.483.263.822.486.72%4.56%5.22%2.786.01%5.99%5.97%16.69%17.01%17.40%19.36% 25.50% 0.76 46.34% 0.4218.89% 25.77% 0.73 44.91% 0.42

2.532.532.7120日预测2.852.852.91

78.15% 16.1378.81% 16.1676.82% 16.1282.12% 16.1680.79% 16.1676.82% 16.0710日预测与20日预测集成多任务学习基线19.11%25.67%0.7447.18%0.4117.19%6.17%2.798.85%1.9479.47% 任务间注意力19.29%26.00%0.7448.40%0.4017.47%6.22%2.817.97%2.1978.15% 股票间注意力19.20%25.83%0.7445.48%0.4217.33%6.04%2.875.89%2.9480.13% 资料来源:朝阳永续合成因子和指增组合指标图表12:任务间注意力和股票间注意力RankIC均值 图表13:任务间注意力和股票间注意力多加权RankIC均值11.6%11.5%11.4%11.3%11.2%11.1%

多任务学习基线 任务间注意力 股票间注意力RankIC均值多任务学习基线 任务间注意力 股票间注意力

多头加权RankIC多头加权RankIC均值多任务学习基线 任务间注意力 股票间注意力10.4%10.2%10.0%9.8%9.6%9.4%11.0%

10日预测

20日预测

10日预测与20日预测集成

9.2%

10日预测

20日预测

10日预测与20日预测集成资料来源:朝阳永续,, 资料来源:朝阳永续,,图表14:任务间注意力和股票间注意力信比率 图表15:任务间注意力和股票间注意力超收益Calmar比率3.0

信息比率

超额收益Calmar超额收益Calmar比率多任务学习基线 任务间注意力 股票间注意力多任务学习基线 任务间注意力 股票间注意力2.9 3.5多任务学习基线 任务间注意力 股票间注意力2.8 3.02.7 2.52.6 2.02.5 1.52.4

10日预测

20日预测

10日预测与20日预测集成

1.0

10日预测

20日预测

10日预测与20日预测集成资料来源:朝阳永续,, 资料来源:朝阳永续,,合成因子Top组相对净值图表16:任务间注意力和股票间注意力10日预测Top组相对净值 图表17:任务间注意力和股票间注意力20日预测Top组相对净值20日预测多任务学习基线 任务间注意20日预测多任务学习基线 任务间注意股票间注意力多任务学习基线 任务间注意力 1414 股票间注意力12 12108642 2011-01-042012-01-042013-01-042014-01-0402011-01-042012-01-042013-01-042014-01-04

1086422021-01-042022-01-042023-01-042011-01-042012-01-042013-01-042014-01-042015-01-042016-01-042017-01-042018-01-042019-01-042020-01-042021-01-042022-01-042023-01-0402021-01-042022-01-042023-01-042011-01-042012-01-042013-01-042014-01-042015-01-042016-01-042017-01-042018-01-042019-01-042020-01-042021-01-042022-01-042023-01-04资料来源:朝阳永续,, 资料来源:朝阳永续,,图表18:任务间注意力和股票间注意力10日预测与20日预测集成Top组相对净值10日预测与20日预测集成多任务学习基线 任务间注意力 股票间注意力14121086422011-01-042012-01-042013-01-042014-01-042015-01-042016-01-042017-01-042018-01-042019-01-042020-01-042021-01-042022-01-042023-01-0402011-01-042012-01-042013-01-042014-01-042015-01-042016-01-042017-01-042018-01-042019-01-042020-01-042021-01-042022-01-042023-01-04资料来源:朝阳永续,,指数增强组合超额净值图表19:任务间注意力和股票间注意力10日预测组合超额净值 图表20:任务间注意力和股票间注意力20日预测组合超额净值10日预测10日预测多任务学习基线 任务间注意力股票间注意力2011-01-04-100%2011-01-04

700%20日预测20日预测 多任务学习基线 任务间注意力股票间注意力500%300%200%100%2011-01-042012-01-042013-01-042014-01-042015-01-042016-01-042017-01-042018-01-042019-01-042020-01-042021-01-042022-01-042023-01-04-100%2011-01-042012-01-042013-01-042014-01-042015-01-042016-01-042017-01-042018-01-042019-01-042020-01-042021-01-042022-01-042023-01-04资料来源:朝阳永续,, 资料来源:朝阳永续,,图表21:任务间注意力和股票间注意力10日预测与20日预测集成组合超额净值10日预测与10日预测与20日预测集成多任务学习基线 任务间注意股票间注意力600%500%400%300%200%100%0%2011-01-042011-07-042011-01-042011-07-042012-01-042012-07-042013-01-042013-07-042014-01-042014-07-042015-01-042015-07-042016-01-042016-07-042017-01-042017-07-042018-01-042018-07-042019-01-042019-07-042020-01-042020-07-042021-01-042021-07-042022-01-042022-07-042023-01-042023-07-04资料来源:朝阳永续,,时序注意力对比单任务学习基线、ALSTM和Transformer模型,主要结论如下:以因子日频时间序列代替截面因子作为输入,合成因子测试表现有显著提升。即便是LSTM基线模型,RankIC均值、Top组年化收益率就已高于前文多任务学习基线模型(1.0%1.%;27.2%26.%ALSTM接近,TransformerRankIC组Transformer在应用注意力机制编码时间序列信息上有显著优势。LSTMTransformerapa信息。放宽组合优化约束条件后,指增组合的信息比率下降,但年化超额收益率提升,并且Transformer优于LSTM和ALSTM。。图表22(2011-01-042023-07-31)加权

Bottom

多空对冲RankIC

加权ICRankIC

加权 加权Top组精Bottom组Top组年

年化收益

基准收IC均值均值均值均值ICIRRankICIRICIRRankICIR确率精确率收益率率率益率LSTM(单任务学习基线)9.6%12.0%7.9%10.8%0.891.080.730.9757.1%60.9%27.2%-33.2%30.2%6.4%ALSTM9.6%12.0%7.9%10.8%0.901.090.740.9957.1%60.7%27.3%-32.4%29.9%6.4%Transformer9.9%12.3%8.3%11.2%0.941.120.791.0357.4%61.0%29.0%-33.5%31.2%6.4%注:IC使用10日收益率计算资料来源:朝阳永续图表23:原始约束条件下,时序注意力指增组合回测绩效(回测期2011-01-04至2023-07-31,基准为中证500)年化收益率年化波动率夏普比率最大回撤Calmar比率年化超额收益率年化跟踪误差信息比率超额收益最大回撤超额收益Calmar比率相对基准月胜率年化双边换手率LSTM(单任务学习基线)19.67%25.67%0.7747.22%0.4217.79%5.51%3.237.50%2.3778.81%16.40ALSTM18.13%25.74%0.7048.49%0.3716.29%5.53%2.959.18%1.7878.15%16.36Transformer19.64%25.98%0.7649.25%0.4017.83%5.81%3.079.13%1.9577.48%16.34资料来源:朝阳永续图表24:放宽约束条件下,时序注意力指增组合回测绩效(回测期2011-01-04至2023-07-31,基准为中证500)年化收益率年化波动率夏普比率最大回撤Calmar比率年化超额收益率年化跟踪误差信息比率超额收益最大回撤超额收益Calmar比率相对基准月胜率年化双边换手率LSTM(单任务学习基线)20.82%26.17%0.8045.55%0.4618.97%6.92%2.7411.83%1.6078.81%21.10ALSTM20.51%26.07%0.7947.53%0.4318.64%6.77%2.7512.67%1.4776.16%21.13Transformer21.99%26.38%0.8347.54%0.4620.16%7.22%2.799.82%2.0578.15%21.08资料来源:朝阳永续原始组合优化约束条件图表25LSTM(单任务学习基线)

LSTM(单任务学习基线)12.4%12.3%12.2%12.0%11.9%

30%ALSTMTransformerALSTMALSTMTransformerALSTMTransformer28%27%26%11.8%

RankIC

25%

Top组年化收益率资料来源:朝阳永续,,图表26:原始约束条件下,时序注意力指增组合回测指标18.0%

LSTM(单任务学习基线

ALSTMTransformerALSTMTransformer

LSTM(单任务学习基线)ALSTMTransformer17.5% ALSTMTransformer17.0% 3.116.5% 3.016.0% 2.915.5%

2.8

信息比率资料来源:朝阳永续,,图表27:时序注意力Top组相对净值10日预测LSTM(单任务学习基线) ALSTM Transformer181614121086422011-01-042012-01-042013-01-042014-01-042015-01-042016-01-042017-01-042018-01-042019-01-042020-01-042021-01-042022-01-042023-01-0402011-01-042012-01-042013-01-042014-01-042015-01-042016-01-042017-01-042018-01-042019-01-042020-01-042021-01-042022-01-042023-01-04资料来源:朝阳永续,,图表28:原始约束条件下,时序注意力组合超额净值 LSTM LSTM(单任务学习基线)ALSTMTransformer700%600%500%400%300%200%100%0%2011-01-042011-07-042011-01-042011-07-042012-01-042012-07-042013-01-042013-07-042014-01-042014-07-042015-01-042015-07-042016-01-042016-07-042017-01-042017-07-042018-01-042018-07-042019-01-042019-07-042020-01-042020-07-042021-01-042021-07-042022-01-042022-07-042023-01-042023-07-04资料来源:朝阳永续,,放宽组合优化约束条件将个股偏离权重约束、行业偏离权重约束从±1%放宽至±2%,风格偏离标准差约束从±1%放宽至±20%,单次调仓单边换手率上限从15%放宽至20%。图表29:放宽组合优化约束条件步骤参数参数值构建组合基准中证500指数优化目标最大化预期收益组合仓位1个股权重下限0个股偏离权重约束[-2%,2%]行业偏离权重约束[-2%,2%]风格因子调仓周期[-20%,20%]对数流通市值(预处理:5倍MAD缩尾,zscore标准化)每5个交易日单次调仓单边换手率上限20%成分股权重约束无资料来源:华泰研究图表30:放宽约束条件下,时序注意力指增组合回测指标

LSTM(单任务学习基线

ALSTMTransformer原始约束ALSTMTransformer原始约束放宽约束年化超额收益率

LSTM(单任务学习基线)ALSTMTransformerALSTMTransformer原始约束放宽约束信息比率资料来源:朝阳永续,,图表31:放宽约束条件下,时序注意力组合超额净值10日预测 LSTM LSTM(单任务学习基线)TransformerALSTM(放宽约束) ALSTMLSTM(放宽约束)Transformer(放宽约束)2011-01-042011-07-042011-01-042011-07-042012-01-042012-07-042013-01-042013-07-042014-01-042014-07-042015-01-042015-07-042016-01-042016-07-042017-01-042017-07-042018-01-042018-07-042019-01-042019-07-042020-01-042020-07-042021-01-042021-07-042022-01-042022-07-042023-01-042023-07-04资料来源:朝阳永续,,多类注意力集成将多任务学习基线、任务间注意力、股票间注意力、时序注意力四类模型的预测值等权集(其中前三项取10日预测与20Transformer模型10日预测。考察子模型截面预测值相关性,指增组合净值日超额收益相关性,以及集成模型合成因子和指增组合(原始约束条件)表现。主要结论如下:与基线模型相关性:任务间注意力>股票间注意力>时序注意力。换言之,从增量信息的角度看,任务间关系信息<股票间关系信息<时序信息。集成模型合成因子的RankIC均值、对冲收益高于全部子模型,加权RankIC均值、RankICIR、Top组收益等指标仅次于时序注意力模型。Calmar比率仅次于股票间注意力模型。RankIC图表32:子模型截面预测值相关系数均值多任务学习基线任务间注意力股票间注意力时序注意力多任务学习基线10.990.910.74任务间注意力0.9910.910.74股票间注意力0.910.9110.70时序注意力0.740.740.701资料来源:朝阳永续,Wind,华泰研究图表33:指增组合日超额收益相关系数多任务学习基线任务间注意力股票间注意力时序注意力多任务学习基线 10.940.800.73任务间注意力 0.9410.820.73股票间注意力 0.800.8210.73时序注意力 0.730.730.731资料来源:朝阳永续,Wind,华泰研究图表34:集成模型合成因子评价指标(回测期2011-01-04至2023-07-31)RankIC

IC

加权 加权Top组精Bottom组Top组年化Bottom组年

多空对冲年基准收益IC均值均值均值均值ICIRRankICIRICIRRankICIR确率精确率收益率化收益率化收益率率多任务学习基线 11.4%7.6%9.7%0.851.020.710.9056.3%60.6%25.8%-31.6%28.7%6.4%任务间注意力 11.3%7.6%10.2%0.851.010.700.9256.3%60.6%25.7%-31.6%28.7%6.4%股票间注意力 11.5%7.7%10.5%0.820.980.700.9156.6%60.5%26.9%-30.6%28.7%6.4%时序注意力 12.3%8.3%11.2%0.941.120.791.0357.4%61.0%29.0%-33.5%31.2%6.4%集成模型 12.5%8.4%10.7%0.901.080.760.9557.3%61.4%28.6%-34.7%31.6%6.4%注:IC使用10日收益率计算资料来源:朝阳永续图表35:集成模型指增组合回测绩效(回测期2011-01-04至2023-07-31,基准为中证500)年化收益率年化波动率夏普比率最大回撤Calmar比率年化超额收益率年化跟踪误差信息比率超额收益最大回撤超额收益Calmar比率相对基准月胜率年化双边换手率多任务学习基线19.11%25.67%0.7447.18%0.4117.19%6.17%2.798.85%1.9479.47%16.12任务间注意力19.29%26.00%0.7448.40%0.4017.47%6.22%2.817.97%2.1978.15%16.15股票间注意力19.20%25.83%0.7445.48%0.4217.33%6.04%2.875.89%2.9480.13%16.08时序注意力19.64%25.98%0.7649.25%0.4017.83%5.81%3.079.13%1.9577.48%16.34集成模型20.10%25.79%0.7847.85%0.4218.21%6.08%3.006.96%2.6279.47%16.15资料来源:朝阳永续图表36:集成模型与基线模型累计RankIC差值累计RankIC:集成模型-基线模型 累计加权RankIC:集成模型-基线模型3.53.02.52.01.51.00.52011-01-042012-01-042013-01-042014-01-042015-01-042016-01-042017-01-042018-01-042019-01-042020-01-042021-01-042022-01-042023-01-040.02011-01-042012-01-042013-01-042014-01-042015-01-042016-01-042017-01-042018-01-042019-01-042020-01-042021-01-042022-01-042023-01-04资料来源:朝阳永续图表37:集成模型超额收益表现(回测期2011-01-04至2023-07-31,基准为中证500)

集成模型超额收益最大回撤(右轴) 基线模型超额收益最大回撤(右轴

集成模型累计超额收益基线模型累计超额收益集成模型累计超额收益基线模型累计超额收益25%20%400% 15%200%

10%5%0% 0%-200%

-5%-10%2011-01-042011-07-042011-01-042011-07-042012-01-042012-07-042013-01-042013-07-042014-01-042014-07-042015-01-042015-07-042016-01-042016-07-042017-01-042017-07-042018-01-042018-07-042019-01-042019-07-042020-01-042020-07-042021-01-042021-07-042022-01-042022-07-042023-01-042023-07-04资料来源:朝阳永续总结注意力机制是近年来人工智能领域影响深远的创新之一,但以往应用于量化投资多局限在行情时间序列编码,本研究展示多种形式的注意力机制在量化选股各类场景的运用。分别测试:(1)任务间注意力:提取多任务学习中的任务间关系信息;(2)股票间注意力:Transformer学习截面因子的股票间关系;(3)时序注意力:ALSTMTransformer编码因(1)任务间注意力提升稳定;(2)股票间注意力提升主要体现在因子allyouneed。注意力系数的本质是两个向量的归一化相似度。自注意力通过计算输入信息中各元素间的注意力系数作为权重,将其他元素的信息聚合到自身。因此,自注意力的本质是基于相似度的权重再分配,用来表征数据内部关系。只要涉及权重分配和关系信息表征,都有可能引入注意力结构,万物皆可Attention。计算自注意力的对象,在自然语言处理场景下,通常是一条文本内的各单词;而在因子选股场景下,既可以是一条时间序列内的各时刻,又可以是一个截面内的各股票,还可以是一组网络内的各模块。在多任务学习的任务共享层和任务特异层间引入多头自注意力层,编码任务间关系;将任MLP网络替换为Transformer对比多任务学习基线、任务间注意力和股票间注意力模型。任务间注意力模型的合成因子和指数增强组合回测表现有稳定提升,提升同时体现在每个子任务以及子任务集成上。股RankIC组收益有提升,但指增组合只在部分子任务以及子任务集成上观察到优势。LSTMALSTM时序注意力编码时序信息。对比单任务学习基线和两类注意力模型。从合成因子评价指标看,LSTMALSTM接近,TransformerTransformer在编码时间序列上合成因子的优势难以体现在组合中;放宽约束条件后,以信息比率的下降为代价换取年化超额收益率的提升,TransformerLSTMALSTM。股票间注意力>RankIC均值、对冲收益高于全部子模型,指增组合年化超额收益率高于全部子模型,部分关键指标仅次于时RankIC25.8%17.2%2.79提升至本研究存在以下未尽之处:(1)注意力机制的表现形式不局限上述三种。例如在多模态学习中同时学习截面、时间序列、文本等信息,采用注意力机制融合多个信息源。注意力机制(2)TransformerTransformer编码器结构,并未对超参数、位置编码等细节进行探索,尚有优化空间。(3)本仍观察到合成因子表现提升但指增组合未见提升的现象,本质是指增约束条件未能体现在深度学习网络的架构或损失函数中,这始终是困扰我们的一个问题。参考文献Ma,T.,&Tan,Y..(2022).Stockrankingwithmulti-tasklearning.ExpertSystemswithApplication(Aug.),199.Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.N.,...&Polosukhin,I.(2017).Attentionisallyouneed.Advancesinneuralinformationprocessingsystems,30.风险提示人工智能挖掘市场规律是对历史的总结,市场规律在未来可能失效。人工智能技术存在过拟合风险。深度学习模型受随机数影响较大。本文测试的选股模型调仓频率较高,假定以vwap价格成交,忽略其他交易层面因素影响。免责声明分析师声明以往、现在或未来并无就其研究报告所提供的具体建议或所表迖的意见直接或间接收取任何报酬。一般声明及披露本报告由股份有限公司(已具备中国证监会批准的证券投资咨询业务资格,以下简称“本公司”)制作。本报告所载资料是仅供接收人的严格保密资料。本报告仅供本公司及其客户和其关联机构使用。本公司不因接收人收到本报告而视其为客户。本报告基于本公司认为可靠的、已公开的信息编制,但本公司及其关联机构(以下统称为“华泰”)对该等信息的准确性及完整性不作任何保证。本公司不是FINRA的注册会员,其研究分析师亦没有注册为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论