新闻舆情分析的HAN网络选股_第1页
新闻舆情分析的HAN网络选股_第2页
新闻舆情分析的HAN网络选股_第3页
新闻舆情分析的HAN网络选股_第4页
新闻舆情分析的HAN网络选股_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

研究背景另类数据是指传统的价量、财务数据以外,能够为投资者提供增量信息的数据,比如新闻舆情析师报市公司EG数等与统的最大别在另数据多非结构化、来源多样,且数据源的收集较为困难。人工智能方法是对另类数据进行分析的有效手段,华泰金工人工智能系列已经有三篇对另类数据挖掘的相关研究,分别为《人工智能:舆因和ET感分模型(《人智能基于ET的分析师研情感子()及《工能:本ED选策略(分别对情文和分师研文本行了同角的掘本是本挖的第篇报告传统对新闻情的掘大停留单条本的理例如我在本ED选策略的构建过程当中对每位分析师的业绩点评进行单独处理,而没有考虑到不同分析师的观点可能带来不同响以如何合不的观与我阅读分师点的直经验相符大多数情况下我们会阅读不同分析师、不同时间的点评,并认为某些点评是重要的而某些点评相不那重要以此成对股的体理。新闻舆情的解读与此类似,某段时间内与同一只个股相关的所有新闻中,并非所有新闻都有关键性影响,例如投资者对于新闻发布的市场当天涨跌幅数据并不那么关注,因为他们从行情软件中早已获知相关信息且该信息只能表征过去,但投资者会格外关注分析师对个股的解以及市观类高噪比新闻其接来的投行为能具决定影响不学顺文络(ydAtintrk在深0:AN网络结构重点其中注意模块行解;N应用于A股市的实在沪深0股票内对N日频因进行效性析,尝试构有效选股略;对不同块的意力制进空白照实;对不同块的意力制进解读。HN混合注意力机制网络原理模型思想面对纷复杂股票闻舆人会根顺序容(Stiltxtcy)和多样影(vreIflc两原形对票趋势认第于单新闻蕴含的信息并不充足,人们往往会详尽地阅读近期与某家公司相关的所有新闻,进行更为可信的价格趋势预测,这就是顺序内容依赖。第二,不同新闻甚至不同词语提供的信息不尽相同造成股票测“样化响如比于简陈述去市表现名分析师未来势的评会得更参考值“增“中标“持“增等噪比词比“““间”低信比词更吸引投者的意。Ziiuu等()提的混注力机网络(ydAttintrk,A)模仿人认知闻的两大则对闻舆进行习为了模多样影响,N在网络结构的前半部分引入了词语和新闻层面的注意力机制,对不同的词语和新闻赋予相应的权重由络自学习重分更效地据不新闻有效性提取闻文中的息为了形顺序容依,N在网络结构的后半部运用了双向循环经网络适用于处理新闻时间序列数据,并进一步通过时间层面的注意力机制,对每个日期的新闻赋予不同的权重,从而实现对所有数据的整合,最终输出对股票趋势的预测。接下来我们将详细介绍N络的理及中蕴的思。模型结构AN模型的原完整构如图表1所括词Wrdmi语注力机制新闻意力制双向控循单(G时注意力制及层感(MP值得一提的是,原论文中只有新闻和时间层次的注意力机制,但我们认为不同词语在新闻解读的程中要性是千万别此增了词层次的意力制如图表2所示我们将网络各个块进解读。图表:HAN网络结构(原论文版):stigoCticWisrs:ADprigFrwrkrNwsritdtckTrdrictin,图表:HAN网络结构(增加词语注意力机制):stigoCticWisrs:ADprigFrwrkrNwsritdtckTrdrictin,首先界定本文的任务目标:作为混合注意力机制网络的初探报告,我们借鉴了原论文的做法,以频股涨跌作为N络的测标。对第t个交易的股票我们要利用过去N个自日中该股相关新闻[t-,t-+,...,t-]来测该票的~+1日收,该收益以用频开价或交均来衡假每个然日与股票S有关新闻有L则,t=[t,t,..,t];则闻有M个词,ti=[i,i2,...,iM]。词嵌入作为非结构化数据,新闻文本需要经过一定的预处理,才能输入神经网络模型。最简单的处理是-t编码向的每维度应一词语“华泰券可表示[[,,,],[,,,],[,,,],[,,,]。样的足是如果想覆盖有的汇,量的维度将特别大,占据较高存储空间,且难以表征词语之间的相似性。词嵌入是一种更好的向量化方式,它基于文本中的上下文位置进行训练,既能构建出更低维度的向量,也能保留词语间的似性。常见的嵌入有Si-rm和W它的基思想是词汇中的个词可以表示为定维的向有量的本作预训语文本的每位置t上一个心词语c和上文词语据词量计算c和o的似度到给定c条件下o出的概Si-rm或给定o条件下c出现概BW不断整词使概率最大。下面以Si-rm例,绍算的原。对中心语和上文词,各一套向化的方式v和比中心词语c表为向量v下文词语o可表为向量给定c条件下o出现的率为𝑜𝑐 𝑒𝑢𝑇𝑜𝑐 𝑃𝑜𝑐)=𝑤𝑐∑𝑤𝑉𝑒(𝑢𝑇𝑣)𝑤𝑐预训练本中位置=,,…,T,定中词语t,预测窗大小为m上下词语现的概为目标函数J(定义

𝑇𝐿𝜃)=∏ ∏ 𝑃𝑡𝑗𝑡;𝜃)𝑡1−≤𝑗≤,𝑗0𝑇1 1𝐽𝜃)=−𝑇𝑔𝐿𝜃)=−𝑇∑ ∑ 𝑔𝑃𝑡𝑗𝑡;𝜃)𝑡1−≤𝑗≤,𝑗0概率()最大,即标函数J(最小。可过梯下降法随机度下法等法代,获最优词向参数。在实际作中我们先借助Ptn中的jia库,段落切成有义的字和语比如“中国铁建财务公司落地首笔国债逆回购”切分后变为“中国|铁建|财务|公司|落地|首笔|国债|逆|回购;之后,用北京师大学和中民大学研究者源的中文训练词向量iWr-tr,将切的每词语化为0维的向量。为了检验预训练词向量能否反映词语之间的相似性,我们做了一些测试。首先,根据词向量的余弦值可以计算词语之间的相似度,从而挑选出与测试词语最为接近的词语。比如,输入复旦学,会“北大学“京大武汉大上交通学是最为相似词其北京学复旦相度为.广州会出“天河区“越秀“番禺“花都“海珠区”等广州市内的县级行政区划,其中“天区”“广市”相似达.。另通过主分分(P对词量进行降处理以二维点图观地映词之的关系如“华大“京大学“浙江大学”在散点图中的位置非常接近,说明这三个词语含义较为相近,类似的还“京上海“广“泰中信“中金通这两简单测试,我们发预训词向能够好地示词的实含。图表:词向量可视化:词语注意力机制人类在浏览文字时,往往不是按部就班地逐字阅读,而是会聚焦在一些关键的词语和语句上,抽象出重要的信息,形成对文本的理解。借鉴人类的阅读行为,5年zmtryBu等人对传统的cr-cr模型加以进出了意力制有效升了机器翻的性。模结构下图示,核心于用注意机制建了境向量ci:𝑥𝑖=∑𝑗𝑗𝑗1其中j表示语的解ij表示j在建语向量ci中的权ij确定要两步骤,首先是据cr中前一刻的状态i-1及cr中的隐态j,通对齐型a计算得到ij再由ij进行fmx理后得到ij模型是指翻译后的本一不是等长的,所以需要一个模型来对齐文本,原文中运用的对齐模型本质上也是一个前馈神经网能刻画cr第j个输入与cr第i个输出的配程与整翻译模型中的他参联合练。𝑗=𝑎𝑖1,𝑗)𝑒𝑝(𝑗)∑𝑗=𝑥∑𝑘1

𝑒𝑝𝑘)图表:机器翻译模型:NerlcieTrltinyJilyrigolindTrslte,AN使用了语注力机,以量不词语预测票趋势的差化影。相于述机器译模型AN确定权的过更为单向量化词语i通过一层经络得到意力值i使用fmx标化后到词注意力𝛾i最后加权均得新闻层面向量。具的数公如下:𝑖=𝑔𝑑(𝑤𝑖+𝑤)𝛾= 𝑒𝑝𝑖)∑𝑖 𝑀∑𝑗1

𝑒(𝑗)𝑀𝑛=∑𝑖𝑖𝑖1图表:词语注意力机制:新闻注意力机制考虑到同新在预股票势中差异影响,AN也加入新闻意力制。则闻i通过层神网络到注力值vi用fmx准化后到新的注力权重,最后加平均到日向量,表某天中有新的信息具体数学式如:𝑣𝑖=𝑔𝑑(𝑛𝑖+𝑛)𝛼= 𝑒𝑣𝑖)∑𝑖 𝐿∑𝑗1

𝑒𝑝𝑗)𝐿𝑑=∑𝑖𝑖𝑖=1图表:新闻注意力机制:双向门控循环单元循环神网络N是时间列建的经模型但准N在应用中会到梯消失的问题难以忆长的信短期忆网(S和门控环单G以利用门控机制来保留长期信息,决梯度消失问题。中GU结构更为简单,参数更少且能在音识等任中与STM现样出。图表:门控循环单元的内部结构:GU包含一重置门t一个新门z,重门有捕捉时序列的短关系而新门有于捕长期系:𝑡=𝑔𝑑𝑟𝑡+𝑟𝑡1+𝑟)𝑡=𝑔𝑑𝑧𝑡+𝑧𝑡1+𝑧)其中,t-1表示一的隐状态,t的算如:𝑡𝑡=1−𝑡)×𝑡1+𝑡×̃𝑡𝑡可以看出t由上期的藏状态t-1和当的候藏状̃线性组而成选隐藏𝑡𝑡状̃的计算如𝑡

̃=𝑡𝑊𝑑+𝑟×𝑈ℎ )+𝑏)𝑡 ℎ𝑡 𝑡 ℎ𝑡1 ℎ为了同捕捉去和来的息,AN使了双门循环单(iG=𝑑,𝑖∈[,𝐿]𝑖 𝑖⃗=⃗𝑑,𝑖∈[𝐿,]𝑖 𝑖ℎ=[,]𝑖𝑖值得注的是这里未来息是对于去而的比如使前0的新预第1天到2天价的跌,么第5的新处理可利用第1和第0的信的,在股价预上并会造未来据的题。图表:双向门控循环单元:时间注意力机制AN同样使用意力制反映同时的新在股预测中差异影iGU输的每日信息i通过层神网络到注力值i用fmx标化后到日的注力权重i,后加平均得到。体的学公如:𝑖=𝑔𝑑(𝑑𝑖+𝑑)𝛽= 𝑒𝑝(𝑖)∑𝑖 𝑁∑𝑗=1

𝑒𝑝𝑗)𝑁𝑉=∑𝑖𝑖𝑖1图表:时间注意力机制:多层感知机经过词入循神经络和系的注力机制出V可以表征股票S过去N自然日的新舆情息下来通过别网三层连接网结构最输出未来票趋势预测—上、下或平。图表:判别网络结构:HN网络选股实证本章应用N网络在A股场进新闻情分选的实证主要究两目标:网络选股是否有效以及不同模块的注意力机制对最终选股结果的影响。我们将主要分为以下几个分展介绍:新闻情数源介;实验与对组的计;对比验结展示;注意分析。总体来基于N网络舆分析股较有效模型的意力配基与我预的较为致从果来看Wr-vl-vl和mrl-vl三模块注意力对最终回测果都较大响Wr-vl影响;-vl和mr-vl影响较。新闻舆情数据源介绍本文数实证分所用的闻舆数据自于得库Fiils表该表记录自5年以来A股市场每日新闻情数。里们展示表按OPTE段提出的//3日的部分舆数据对其的字进行读。图表:nclews样本示例UIDEDTE INDCODS URCEMKTNTIMNTS TITLE CNTNT1 /0/7::48

/1/3::32

中金岭南中金岭|A股A股公司

e公司 - 属e公司讯,中金岭南()7日晚间公告,公司直属凡凡口铅锌矿恢口铅锌矿此前于0月9日实施分阶段流程停产检修根司|.Z:中金岭南|股ON0公司

年度检修计划安排,公司直属凡口铅锌矿于0月5日产检修完毕,0月6日全面恢复生产…2 /0/7

/1/3

中国联通中国联

新浪 0.SH0:

中国联通前三新技讯0月7午联布披露::34

::57

|A股A股公司公

国联通正面

7年三财运据报示国前三司|.H:中 |ON1:A股正亿元同比上升季收为8亿其务入.0比国联通|股ON0公司

面ON1:公司正面|:正面情|ON1市场情绪

.%

去期升.;服入为.8亿比去年上升.;TDA为.3元去期上升.联司持应利币.4亿增加中联通7前度财务数据运数据面,7年首季度移动账用净4万达到.7亿,出户RU为.4元比6年年的.4明…3 /1/3::33

/1/3::35

.Z:通富电N0:A

中国经济

1.Z0:富微电正面

芯片概念午后芯片概念午后持续活跃,截至发稿,通富微电、雅克科技走强通富微电等2股涨停景嘉微涨超%太极实业涨超%国科微、|.Z:全志技.H三安光电N公司

|ON1:A股正面ON1:公司正面|:正面情|.H三安光电正面|ON1场情绪

上海新阳长电科技涨逾紫光国芯盈方微三安光电、北京君正等涨逾%全志科技富瀚微富满电子欧比特涨逾%,国民技术、圣邦股份、士兰微等十余股涨逾%。中国经济网声明:股市资讯来源于合作媒体及机构,属作者个人观点,仅供投资者参考,并不构成投资建议。投资者据此操作,风险自担。4 /1/3::50

/1/3::51

.Z:柳|ON0:A

工程机商贸

-.Z:工正面

业“现代农业机械”是柳工集团二次创业要大力发展的重要大力拓展新兴新兴产业之一。柳工农机公司致力于“成为甘蔗生产全程资料来源,

|ON0公司

|ON1:A股正面ON1:公司正面|:正面情|.WZ:建筑机械与重型卡车正面|ON1:行业面ON1:市场情绪

机械化领导品牌”,以“实现甘蔗生产现代工业化系统理”为使命,围绕全产业链思维、全程机械化思维及产共享理念,依托柳工集团强大的研发、制造及营销体系专注于甘蔗生产全程机械化产品研究。自进入现代农业械产业以来,柳工农机公司取得了喜人的成绩。BIEE是E条样本是/7发布的,而该新闻直到/3才进入万得底库。从回测的角度,//7到/3。WOES字段示该闻涉到的票代为闻与股应构联系系的一识字MTSETIETS表该新闻情感向由万得注大部新闻有情倾向标。ITE与OET新闻标题摘要是文本据的体来,本在对该文本行处时将题与要拼在一当作条本的文输入。实验组设计:网络结构与参数设置前文已经从理论层面详细介绍了N网络的结构,这里不再赘述。本章展示我们在trflw中搭建N网络时使用具体络层及超参设置。图表:基于Trfow的HAN网络详细结构:本文所用的mig训练型为京师大学中国人大学究员源的文训练词向量iWr-tr将切分每个转化为0维的向量第一我们已经针对该预训练模型进行过一些测试,结果表明确实可以较好地衡量词语之间的相似程度,再赘。这里我们展开解释训练迭代次数的选择原因:一般来说在神经网络训练时每个ch里tps的步数是由样总量和tcize决定的尽量证每轮练可将全样本历一次。但我们在实际训练中发现,受限于算力不足,如果每轮训练都将样本全部遍历一次大约需要~0个t,时间开销高,此为顾训练间与型学效率我们将每轮ch训迭代数固为0个t。这也就意着,际上能存部分样本没参与练。图表:HAN网络超参数项目 参数选择新闻回看天数N 0每天选取的新闻数量L 5每条新闻的长度W mig维度V 双向GRU的输出特征维度 判别模块全连接层神经元数量 单条新闻D方式 st单条新闻TRUNCTE方式 st训练迭代次数ch 0每轮迭代的训练步数 网络总可训练参数 06tchie 4优化器 WitDcayOtimirrigrte -4rlystig 是资料来源:关于模训练的一细节予以独说:如果某自然个股闻数为零则当天的5新都以D进行理如果新闻数大于5条,则读取序依取前5条新闻;本文进的是类任根据本内部样的个日频收按开价计下三分一分数作阈值将样划分上涨震下跌个类使的损函数为交熵损函数。对照组设计:删除不同模块注意力的对比试验N网络设计绕着意力制展,因关于力机制无的比试是N络研究绕不开的话题。本小节我们将三组注意力模块分别替换为等权求均值,在保证其他网络超数都致的件下行对实验使结的较有意。对试验下图示:图表:删除不同模块注意力的对比试验:上图中记为Witm模块示有意力制标记为vre模块示注力机制被替换为向量等权平均:以词注意力机制为例,有注意力机制表示网络结构当中会对一条新的0个词编向量(0是先设的每新闻的大词长度生成应注意力重,加权和得该条闻的码向;注意力制则接将0词向编码求均作该条闻的码向,如图所,余模块照组似。图表:词注意力机制的对照:对比试验结果展示本小节们示N络新舆情析在A股选实证结。以深0为票池,每条样的输特为T日去N天的闻序,每最多选的新数为L,每条新闻的度为W每个词的量编长为关上述参的选可以考表。每条样的标为T1日盘至+2开盘因后文数实证调仓率均日频。数据实我们要分三个分展:p-put策略回测始的一个易日据一天N预测的股得分选择排名前的K只票等持有接下的每交易根据前天N测出得分剔除组内得最低一只票,入组外得最的一只票;因子IC测试:将N预测得视为频因进行因子IC计算;因子分层回测:将N预得分为频因进行因子分回测。在展示据测的结之前我们以首看一下N预测得在沪深0股票池的盖度该覆度的际含过去0个自然中至有1则新闻的股数可看整体覆度超过,尔覆度会降低。图表:HAN日频因子在沪深0股票池覆盖

HN日频因子覆盖度2019-01-022019-04-03202019-01-022019-04-032019-07-032019-09-262019-12-262020-03-302020-06-302020-09-222020-12-232021-03-252021-06-242021-09-162021-12-202022-03-22,p-put策略回测开的第个交日我根据一天N预出股票得选择名靠的K只票等权持从二个易日始每根据一天N测出的分除当持仓合内得分最低的一只股票,并以剩余资金买入组合外得分最高的一只股票。每次模型重新训练时持有的K只票会据最沪深0成分股部重替换为分最前的K只股于K的选择在比实时我都以0为例进展示后文我们对K选择行讨。由于万数据库提的新舆情据从5年开且始数质量佳因此一轮训练我们以-8的样本作为样本内,以-0作为样本外;第二轮训练以-0作为样本内,以-2作为样外;段样本拼接我们际的测间-3每日以盘价替换股进行调易手费取边千。图表:T-rot1策略净值实验组 图表:T-rot1相对净值实验组.50.5.0.5.0.511--3

TT-Drt-费前最大回撤T-Drt-费T-Drt-费沪深等权-%2-2--3

.08.6.4.2.0.8

TT-Drt-相对基准-费前最大回撤 T-Drt-相对基准-费前(左轴)T-Drt-相对基准-费后(左轴)-%2-2--31--41--41--71--72--12--121--41--41--71--72--12--12--32--42--62--52--72--11--31--41--41--71--72--12--12--32--42--62--52--72--1图表:T-rot1策略净值对照组1 图表:T-rot1相对净值对照组1Top3-Drt-费前最大回撤T-DT-Drt-相对基准-费前最大回撤相对基准净值-对照组1.0.5.0.5.0.51--31--31--31--31--41--41--71--72--12--12--32--42--62--52--72--1

ToTo3-Dr-对照组1 沪深等权-%2-2--3

.0.8.6.4.2.0.8

-%2-2--31--41--41--71--72--1--41--41--71--72--12--12--32--42--62--52--72--1图表:T-rot1策略净值对照组2 图表:T-rot1相对净值对照组2

.0相对基准净值相对基准净值-对照组26.4T-DrT-Drt-对照组2沪深等权3 .01--31--41--41--71--31--41--41--71--72--12--12--32--42--62--52--72--12--31--31--41--41--71--72--12--12--32--42--62--52--72--12--3,,回测期:-031 ,,回测期:-03图表:T-rot1策略净值对照组3 图表:T-rot1相对净值对照组3.8.3.8

T0-Drt-对照组3

.0相对基准净相对基准净-对照组36.3

.4沪深等权.8沪深等权.3 .01--31--41--41--71--31--41--41--71--72--12--12--32--42--62--52--72--12--31--31--41--41--71--72--12--12--32--42--62--52--72--12--3,,回测期:-031 ,,回测期:-03图表:T-rot1策略净值对照组4 图表:T-rot1相对净值对照组4T-DrtT-Drt-对照组4沪深等权 相对基准净值-对照组43 .88 .63 .48 .23 .01--31--41--41--71--31--41--41--71--72--12--12--32--42--62--52--72--12--31--31--41--41--71--72--12--12--32--42--62--52--72--12--3,,回测期:-031 ,,回测期:-03图表:各实验组业绩对比区间收益 年化收益 年化波动 最大回撤 夏普 卡玛 年化超额实验组对照组对照组2对照组3对照组4沪深0等

.% .% .% .6 .8 .%.%.%.%.%.%.%.% .%.%.%.%.%.%.% .% .% .3 .6 -.%.% .% .% .2 .9 .%.% .% .% .1 .2 .%.% .% .% .3 .4 -资料来源,,回测期-2通过以对比验,们可总结如下论:N混合注意力机制网络选效果较为秀,K-t策略在回区间以获得较为著的额回,区相对沪深0等权年化额.,超稳健;且-rt策略受手费影较小;注意力机制的有无对最终结果有较大影响,有注意力块的网络选股效果明显要好无注意模块网络且效相差大;不同模块注意力机制影响不同,词注意力模块的缺失选股结果影响相对较小,去词注意模块后年收益年化额收大约削减左右新闻意力日期力的缺失对选股结果影响较大,去除新闻注意力或日期注意力以后选股结果几乎难获得超收益超额益在附近动。但值得说明的是,我们在测试的过程中发现某些情形下,即使是三组注意力模块都存在选股结果也可能由于模型超参数的变化而产生一定范围的波动,因此这里我们展示的对试验结果未必呈现出了对应网络结构下的最优选股效果,仅是在保证其余超参数都一致情形下严格照。图表:T-rot1策略日频换手实验组 图表:T-rot1策略日频换手对照组1

日频换手率-实验组

日频换手率-对照组1% % % % 1--41--41--41--1--41--41--41--42--42--42--42--42--42--42--42--42--41--41--41--41--42--42--42--42--42--42--42--42--42--4, ,图表:HAN训练准确率 图表:HAN训练损失函数

训练集准确率 验证集准确率

.20

训练集损失函数 验证集损失函数

.18

.16.14.12

.10

0 2 4 6 8024680246

.08

0 2 4 6 8024680246, ,除此以外实验对应换手及损函数上面所示从手率看基于N络的日选股略日双边手平均在.左右年双边换手6倍从失函来N的训过程以看较为型的失函变化,图中展示结果约在0迭代以进入定状。本小节后我对实组中不同K的取进行测试结果如图所。从果来看K取//0整体效果差不大说明基于N日频因构建的-rt策略对票数量这一数的感性度较。K取0时回测收最高,波动幅度居中,最大回撤最小。图表:实验组不同K取值回测绝对净=2=2-最大回=3-最大回=4-最大回=0 =0 =0.0

0%.5 .0 .5 .0 .5 -%1--31--41-1--31--41--41--71--72--12--12--32--42--62--52--72--12--3,图表:实验组不同K取值回测相对净=2=2-相对基准最大回撤=3-相对基准最大回撤=-相对基准最撤 =2-相对基准 =3-相对基准 =4-相对基准

0%.8 .6 .4 .2 .0 1--31--41-1--31--41--41--71--72--12--12--32--42--62--52--72--12--3,图表:实验组不同K取值的业绩对比区间收益年化收益年化波动最大回撤夏普卡玛年化超额=20.%.%.%.%.1.1.%=30.%.%.%.%.6.8.%=40.%.%.%.%.8.4.%资料来源,,回测期-2N日频因子IC测试将AN网络预测得到每只票上类别概率为日频子,算因子的IC值:𝐼𝐶𝑇=𝑟𝑟(𝑟𝑇1,𝑋𝑇)其𝑟𝑇1表示+1日个收益(按盘价算日收益𝑋𝑇表示第T个股应的N因子值。在多因选股体系,为验证单子有效性,上述因𝑋我们一般会进行行业值中处理但受于算本计算的N因子限于沪深0股票池因此我们对因值进行业值中预处。由于N输出因子是属上涨别的率,较少出异常,可直接用IC对因子效性行判,无秩相系数根据IC对子进行价的法如:IC值序列值—因子著性;IC值序列准差—因稳定;II(IC值列均与标差比值——子有性;IC值序列于零占比—因作用向是稳定。H对照组:无词注意力图表:沪深0实验组:日频C序列 图表:沪深0对照组:日H对照组:无词注意力

H实验组H实验组% -% -%1--21--31--31--61--21--31--31--61--62--02--42--62--92--12--02--12--41--21--31--31--61--62--02--42--62--92--12--02--12--4, ,图表:各对照组因子值日频累计C序列H实验组HH对照组:无词注意力 H对照组:无词注意力+无新闻注意力 H对照组:无词注意力+无日期注意力H对照组:无词注意力+无新闻注意力+无日期注意力975311--21--31--21--31--31--61--62--02--42--62--92--12--02--12--4,从单因子IC角度看实组的子有性也于其对照组词意力块的失对子有效性影响较小;新闻注意力与日期注意力模块的缺失对因子有效性影响较大。实验组日频IC均值为.,IIR为.;从因子IC的角度来即使实验的有性也不能称为很一般认为IIR大于.5是有效子,一面或提我们络结的设计仍改进间;另一面从文的析可看,N频因的IIR高可能是由于多头的相性不造成。N日频因子分层测试因节有深0为5。分层相对基准分层相对基分层相对基分层相对基分层相对基准分层相对基分层相对基分层相对基分层相对基.4.3.21.0.9.871--21--1--21--31--31--61--62--02--42--62--92--12--02--12--4, 分层相对基准分层相对基准 分层相对基 分层相对准分层相对基准图表:沪深0对照组 分层相对基准分层相对基准 分层相对基 分层相对准分层相对基准.4.3.2.1.0.9.8.7.6

.4分层分层相对基准 分层相对基准 分层相对基准分层相对基准 分层相对准.2.1.0.98.71--21--31--31-1--21--31--31--61--62--02--42--62--92--12--02--12--41--21--31--31--61--62--02--42--62--92--12--02--12--4, , 分层相对基准分层相对基准 分层相对基准 分层相对基准分层相对基准图表:沪深 分层相对基准分层相对基准 分层相对基准 分层相对基准分层相对基准.4.3.2.1.0.9.8.7.6

分层相对基准分层相对基准 分层相对基准分层相对基分层相对基.3.2.1.0.9.8.71--21--31--31-1--21--31--31--61--62--02--42--62--92--12--02--12--42019-01-022019-04-032019-07-032019-09-262019-12-262020-03-302020-07-242020-10-26221-0-192021-04-212021-07-20221-1-212022-01-14, ,图表:各实验组分层绝对收益对比分层1 分层2 分层3 分层4 分层5实验组.%-.%-.%-.%-.%对照组1.%-.%-.%-.%-.%对照组2-.%-.%-.%-.%-.%对照组3.%-.%-.%-.%-.%对照组4-.%.%.%-.%-.%资料来源,从分层测的果可看到,N实验日频子的头侧收非常显,期来相基准净值较为稳健;后面四层虽然单调性不如第一层,但整体可以看出区分度。结合上一小节对IC值分析们不发现N实验日频子的IC值不主要来自非多头端的分效果较一:顾N日频子的建程,我是对只股去0个自然日的新闻舆情进行分析,实际上模型比较关注的应当是新闻舆情覆盖度比较高的那些股票而尾的股可能过去0个然日关的情数很少导模型以区开也属合理,并不碍我利用N日频子的头端益贡献。注意力分析最后我们对模型训练当中的注意力实际结果进行分析展示,对注意力系数进行分析可以更为直观看到N模型文本如何行思的帮我们了当前络结设计不理之处便于续改。词注意力系数下图展示词注意力模块部分样本的注意力系数,颜色越靠近红色表示网络赋予的注意力高,颜色越靠近深蓝色表示网络赋予的注意力越低;我们选取了三组样本进行展示,如图所示其中(knWr表示出词词语:图表:示例样本:词注意力展示,图表:示例样本:词注意力展示,图表:示例样本:词注意力展示,从上述例样我们以总出以三点论:模型对那些有实意义词语赋予高的重如示例1中“合“速“助力等词、例2的“破“利”等及示例3中“看“为”等词语而这词语实对断对文本情感向较重要作用;模型对专有词赋的注力较如示例1中多晶硅示例2中“华等词语而这词语个出时也实对感判影不大;最后我需要出模的缺可以到示例3中模给“景气回词较的权重,而“暖”上文“有望景气”上为高,按常规经应当会给这样一些较高权重我们测可的原在于mig词向编码我并未用金融料而较为用的文语库能导模型景气“暖金领域的用词关注不足。新闻注意力系数下图展示新闻注意力模块部分样本的注意力系数,由于我们设置的每日最大新闻数量为5条,因下图展示新闻意力配将至多5条闻上,足5条的表当的新数量不足;颜色越靠近红色表示网络赋予的注意力越高,颜色越靠近深蓝色表示网络赋予的注意越低图表:示例样本:新闻注意力展示(东方航空:503日相关新闻),图表:示例样本:新闻注意力展示(三七互娱:221日相关新闻),图表:示例样本:新闻注意力展示(中联重科:508日相关新闻),从上述果我可以结出下几结论:模型对发事的描性新赋予注意比较如示例样本1中航空突发件的两相关闻注力高其余条,能是于类新闻有较的时性;模型对股描类的闻会予更的注力如例样本3中对第股的述新闻更为关注,而评类的新如第一和二条样本可由于是对相关业进行的评与个股即时联系不是别强因此予了低权重。时序注意力系数最后我展示序注力系数下图为-8训练期的样内模在过去0个自日时序水上的意力值们随采样了0条样分别对这0个自日的意力计算均值-0表示前0个自日-1表示前1个然日从果来时间近的平均赋予的注意力水平越高;时间越远的新闻平均赋予的注意力水平越低,与我们

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论