![深度学习期货择时模型优化及应用_第1页](http://file4.renrendoc.com/view/e8c694b0a89e44eb76ac704a21499f53/e8c694b0a89e44eb76ac704a21499f531.gif)
![深度学习期货择时模型优化及应用_第2页](http://file4.renrendoc.com/view/e8c694b0a89e44eb76ac704a21499f53/e8c694b0a89e44eb76ac704a21499f532.gif)
![深度学习期货择时模型优化及应用_第3页](http://file4.renrendoc.com/view/e8c694b0a89e44eb76ac704a21499f53/e8c694b0a89e44eb76ac704a21499f533.gif)
![深度学习期货择时模型优化及应用_第4页](http://file4.renrendoc.com/view/e8c694b0a89e44eb76ac704a21499f53/e8c694b0a89e44eb76ac704a21499f534.gif)
![深度学习期货择时模型优化及应用_第5页](http://file4.renrendoc.com/view/e8c694b0a89e44eb76ac704a21499f53/e8c694b0a89e44eb76ac704a21499f535.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、Seq2Seq模型及Attention机制(一)模型组成承接上篇报告,Sequence2Sequence模型是一类特殊的循环神经网络架构,现实生活中该模型通常被用(但不限于此解决复杂语言问题如机器翻译、问题回答、创建聊天机器人、文本总结等。以经典的器翻译过程为代表的场景中,输入是一系列的词,而输出是翻译后的一系列词而在订单簿择时模型的相关预测中,输入为(Batchsize*Timeinterval*imension)维度的高维向量,经神经网络编译后并解码后按顺序预测未来时间价格货价格变动该模型的顶层架构为Encoder-Decoder模型,该模型由两个LSTM网络叠加而成,第一个LSTM网络为Encoder(编码器)输入数据经过编码器输入为负责将输入的序列信息转化为预先设置好维度的一组编码,第二个LSTM网络为Decoder(解码负责将已经编译好的这组编码转化为对未来序列信息的预测。Seq2Seq模型相较于上篇报告所提到的所有模型有明显优势在于,该模型仅可以预测未来时刻价格点的预测结果(涨跌或价格)同时可以在预测时生成他模型所无法比拟的价格序列即多点价格预测(该原理来自于解码器在生成来价格序列时也会用到前一时刻点所预测的价格数据.𝑃𝑒=𝑓𝑃𝑒 ,ℎ ).𝑡 𝑡−1 𝑡−1图表1:Seq2Seq模型逻辑框架李沐深度学习(二)Encoder-Decoder模型Encoder-decoder模型也可以称为seq2seq它是为了应对RNN中无法满足不等长序列的输入输出而产生的一个RNN变种Encoder-decoder是深度学习中非常常见的一个模型框架比如无监督算法的aut-encoder就是用编码的结构设计并训练的再比如神经网络机器翻译NMT模型往往就是LSTM-LSTM的编-解码框架。准确的说Encoder-decoder并不是一个具体的模型而是一类框架Encoder和Decoder部分可以是任意的文字语音图视数据模型可以采用CNN,RNNBiRNNLSTMGRU等等其中encodr对数据进编码decoder对生成的编码进行解码。(资料来源于:知乎)(三)Attention机制注意力顾名思义是关注点所汇聚的部分注意力机(attention是人工神经网络中一种模仿认知注意力的技术这种机制可以增强神经网络输入数据中某些部分的权重同时减弱其他部分的权重以此将网络的关注点聚焦于数据中最重要的一小部分。深度学习中的注意力机制则是通过Q(Query查询),K(key:键),V(Value:值)三个矩阵来实现,举一个很简单的例子:类比推荐系统来说,在零食推荐时,Q代表某个人对口味的喜好信息(比如籍贯、年龄、性别等,K代表零食的类别(比如口味质感等V代待推荐的零食品牌.通过求解K和Q在某个线性空间的相似度得出V中各个类别的数值(关注度)的大小,在报告所列举的订单簿的例子中,query,key和alue的每个属性虽然在不同的空间,其实他们是有一定的潜在关系的,也就说通过某种变换,可以使得三者的属性在一个相近的空间中(具体模型构建细节将在后面章节详细展开)Attention机制在Seq2Seq模型中同样可以发挥作用体过程如下图所示。当编码器(Encoder下同),获得输入数据时,同时产生hidden-state以及context向量在hidden-state向量进入解码器(Decder)之前先对各个时期产生的隐状态进行注意力机制的计算具体入下图右侧当解码器同时获得之前所有时刻包含的信息之外还获得了额外的信息让模型自行学习应该关注过去多长时间的信息。图表2:Attention机制在Seq2Seq模型中嵌入方式李沐深度学习(四)Seq2Seq模型下订单簿择时模型表现汇总总体来说在Seq2Seq模型下训练集以及验证集损失的收敛速度都有了一定加快,相较于消耗大量计算资源且不稳定的MLP和CNN模型来说模型在50-150epochs下均有较明显收敛同时对价涨跌预测的准确率也有幅提升。经过对比可以发现模型在训练到50epochs左右呈现佳收敛结果且模在价格涨跌的准确率上基本稳定在80左右的准确率因此可以在短期内保证高的胜率,(高频客户需额外注意频繁调仓导致的成本损失)。图表3:SeqSeq模型表现汇总滞后一期 滞后二期 滞后三期 滞后四期 滞后五期 ConfusionMatrix准确率汇总滞后阶/涨跌
总体 上涨 振荡 下跌滞后一期0.795950.71260.83400.6064滞后二期0.703600.63940.76890.4991滞后三期0.716750.70650.78070.5562滞后四期0.730640.75920.79690.6021滞后五期0.737880.77390.83870.6323中信期货研究所(五)Seq2Seq-Attention模型下表现汇总在Seq2Seq模型中加入注意力机制后模型在准确率上有小幅提升相反收敛速度上却存在小幅下降的情况,模型训练集-验证集收敛情况上看:模型在120epochs左右呈现最佳收敛状态且相应的los相于单一的Seq2Seq模型未有明显提升.模型准确率有小幅下降。图表4:SeqSeq_Attention模型表现汇总滞后一期 滞后二期 滞后三期滞后四期 滞后五期 滞后阶数/涨跌
总体 上涨 振荡 下跌滞后一期0.80310.74200.82400.6830滞后二期0.71960.64020.74860.6184滞后三期0.72240.78090.74120.6824滞后四期0.71360.71020.71270.7205滞后五期0.68580.72960.63020.7421中信期货研究所二、Transformer模型拆解及构建要点2017年《Attentionisallyouneed》介绍了一个有广泛和不断增长的应用的分水岭神经网络架构,但对之前的序列转导研究进行考察是非常有启发的这样做既可以获得背后的动机也可以获得使转化器发展的机器和技术,这就是著名的Transformer模型。这篇论文的动机是机器翻译的问题,这个问题可以表达如下:我们从一源序列𝐹=0,1…𝑖…𝑛}开始,其中每个𝑖代表从源词汇中抽取的一个单独的词例如英语我们试图预𝐹翻译成另一种语言的情况也就是由目标词汇𝑖组成的目标序列组成的目标序列,如法语词汇。从概率公式的角度可以理解为最大化目标函数以这种方式思考这个问题有利于用递归神经网络来解决这个问题这导致最近机器翻译的大部分进展,直到引入基于变形器的模型。同理,基于金融数据的时空特性以及我们的诉求(基于历史信息对未来价格的预测),基于以上原理原理构建的以循环神经网络为架构的transformer模刚好适合解决此类问题。下面的章节将更详细地描述Transformer的各个组成分现在我们将模型的的概述开始。论文中的架构图如下所示。图表5Transformer模型架构图Attentionisallyouneed(一)Transformer模型组件解读如上图所示,Transformer是一个Encoder-Decoder型。Encoder由N组成而Decoder同样则由N块组成深入模型内部部分组件的功能明显区别以往所构建的神经网络,本部分将对不同组件进行解释。模型中的Attention根据论文所示:𝐴𝑡𝑡𝑒𝑛𝑛(,,𝑉)=𝑓𝑡𝑥(𝑄𝐾𝑇)𝑉这里的𝑘Q,K,V代表Query,Key,Value矩阵,其中Q,K维度统一,K,V则序列长度相同。Softmax计算后得如下矩阵:𝑛∑𝑠,𝑗=1𝑗=0最后Attention矩阵表示为:模型构建的Multi-headAttention模块,即通过不同的线性变换到不同的Q,K,V三个矩阵。𝑀𝑢𝑡𝑒𝑑(,,𝑉)=𝐶𝑛𝑡(𝑒,…….𝑒𝑛)𝑊𝑜.𝑒𝑖(,,𝑉)=𝐴𝑡𝑡𝑒𝑛𝑛𝑄𝑊𝑄,𝑊𝐾,𝑄𝑊𝑉)𝑖 𝑖 𝑖模型中的QKV选取研究员可根据自身经验选取不同矩阵作为试.此模块的目的在于求解不同线性空间中QK相似程每一行中除本因子/价格数据之外相对较大的Attention值即为模型重点关注因/价格数据。Add&NormFeedforward模块在模型每个模块输出进入其他模块之前都要做Normaization.模型这里接见了残差连接网络以及LayerNormalization,目的在于首先它们有助于保持梯度平滑这对反向传播有很大帮助注意力一个过滤器这意味着当它正常工作时它将阻止大部分试图通过它东西这样做的结果是很多输入的小变化可能不会在输出中产生太的变化如果它们碰巧落入被阻挡的通道第二个目的就是可以保持始的输入序列。Feedforward简而言之是一个全连接网络一方面可以过滤和提更多的序列信息,一方面可以控制输出维度。DecoderMasked-Attention模型预测时,为确保模型准确性训练以及测试时模型时组预测本时刻时须确保模型不能接触到当前时刻之后的信息的数据,这一点可以在计算Multi-headAttention矩阵式引入mask机制。(资料来源牛津大学)在矩阵之后加入mask矩阵,在Softmax计算后序列息之后的值将全部变为零.因此可以有效来自序列当天时点之后的信息.PositionalEmbedding所有数据在进入Encoder和Decoder之前需要进行置信息编码不同于单纯的WordEmbedding这里采用的是positioalembedding,这种编码信息不仅可以保证序列当前信息可以被提取同时可以提取当先序列(价格)信息和之前若干序列的相对信息目的在于计算相对位置信息的Attention值即一旦嵌入向量被投射到Q/KV向量中在生成期间,将这些值添加到嵌入中,就能提供嵌入向量之间有意义的距离。图表6:PositionalEmbedding可视化例子中信期货研究所(二)订单簿Transformer模型下表现汇总通过解读Seq2Seq,加入Attention机的SeqSeq型在订单簿数据上的表现结果,该结果相对于普通的RNNCNN模型具有较好表现提升。引入Transformer模型后结果如下图所示.模型收敛速度较慢鉴于模型引入2N个代码模块相应的模型收敛速度较慢150epochs后仍然未能明显收敛但是相应的loss在逐步下降,准确率也在逐步提升。根据AttentionisAllYouNeed一文列述Transformer与其他模型比,虽然每一层的计算复杂度大致相同Transformer:𝑂𝑛2×𝑑),𝑅𝑁𝑁:𝑂𝑛×𝑑2,𝐶𝑁𝑁:𝑂(𝑘×𝑛×𝑑2,但是由于Transformer每层之内的并行机制,时间复杂度大大降低为𝑂),RNN为𝑂𝑛)。其中你为序列长度,d为模型维度,k为核大小.由此可见相同空间复杂度的情况下Transformer的并行机制相对于RNN,LSTM来讲具有极大优势。图表7:Transformer模型表现汇总中信期货研究所
滞后阶数涨跌 总体 上涨 振荡 下跌滞后一期0.84770.84200.8019.7830滞后二期0.80960.83440.7928.8184滞后三期0.77300.78090.7292.8024滞后四期0.77290.71020.7797.7540滞后五期0.70810.72960.73290.591三、Transformer模型行情预测表现鉴于订完整单簿数据的可得性较低以及数据体量较大的问题,商品量化团队将分析模型对仅有行情数据(开盘价,收盘价最价,最低价)的期货品种进行分析汇总,本部分将着重关注模型预测与实际价格的拟合程度品种选择上国内品种和国际品种两大类,国内品种包括:螺纹钢(RB),黄金(A),原油(SC),甲醇(MA),PTA(TA)以及国际品种:Brent原油(BZ=F,以及铜(HG=F)报告选取具有代表性的期货品种进行分析预测具体结果展示如下。(重要提示,鉴于每份标的训练轮数随机,RB,Brent原油拟合表现较好原因部分来源于训练轮数超过250轮)。图表8:Transformer行情预测结果汇总中信期货研究所(一)模型价格结果拟合解读我们判断预测的标准在预测值和真实值之间的相关性意义预测值和实际值之间的Rmse两个指标.从可视化结果看,PTA,Brent,以及螺纹钢三者具有较好的相关性.经计算得知相关性依次:AU(0.7322),SC(0.5940)MA(0.6477RB(0.9451)Brent(0.92),Copper(0.7236),PTA(0.8477)。经过图像已经相关性分析可以看出即使某些品种在极端行情出现日间的大幅跳涨以及大跌,Transformer模型仍然可以比较好拟合实际的价格曲线。例如在20202022年能源市场极端行情Transformer仍然可以有较好的趋势性预测。(二)模型后续应用Transformer模型再择时模型上表现优异,同时鉴于模型可以习注意力,进而专注在应该专注的部分.因此后期Transformer模在期货行业亦可进行资产配置的优化以及相关风险预警。四、部分期货品种回测结果展示经过对部分合约品种的预测我们得到了预测的价格数据,本分应用部分品种数据,进行简单汇测。回测逻辑:icin_ic𝑡+1>icin_ic𝑡则产生做多信号,并以第二日开盘价做多,若icin_ic𝑡+1<icin_ic𝑡则产生做空信号以第二日开盘价做空,多空手数在-3随机择。本次回测尚未设置滑点成本。图表9:部分产品回测逻辑图中信期货研究所经回测发现大部分回测品种(生猪除外)能够在简单的交易逻辑上产生正正向收益同时跑赢基准收益,年化收益率经测算:黄(9.94)生猪(11.73,甲醇(14.6)铜(20.09),而螺纹钢和PTA的年化收益率均超过30.虽然部分行情因素导致趋势性结果)由此可以体现Transformer模型预测的准确程度微交易提供支持。中信期货研究所图表10:部分产品回测结果汇总中信期货研究所品种AnnualizedReturnMaximumDrawdownCalmarRatioSharpRatioRB35172.071.33PTA33191.731.12AU9.9414.50.690.81CU20171.171.02MA15220.680.72五、总结展望(一)模型优化总结在第一篇报告结果展示经过对基础多层感知
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人机械租赁合同范本
- 上海市电子产品购销合同
- 个人贷款还款合同模板版
- 产品技术转让合同范本
- 临时劳务合同书电子版
- 中央空调系统维修合同
- 个人投资房产贷款抵押合同示例
- 互联网公司与广告代理签订的合作合同
- 最简单承包合同范本
- 临时购销合同样本
- 口腔粘膜常见疾病
- XXXX无线维护岗位认证教材故障处理思路及案例分析
- 酒店春节营销方案
- 高中物理选择性必修2教材习题答案
- 我国糖尿病视网膜病变临床诊疗指南2022解读
- 锂离子电池健康评估及剩余使用寿命预测方法研究
- c30混凝土路面施工方案
- 颈椎骨折的护理常规课件
- 2022-2023学年上海市杨浦区上海同济大附属存志学校七年级数学第二学期期中综合测试模拟试题含解析
- 稿件修改说明(模板)
- GB/T 33107-2016工业用碳酸二甲酯
评论
0/150
提交评论