版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
:包赞:包赞ozanztscomcn风险提示:本报告结论完全基于公开的历史数据进行统计、测算,文中部分数据有一定滞后性,同时存在第三方数据提供不准确风险;模型均基于历史数据得到的统计结论且模型自身具有一定局限性并不能完全准确地刻画现实环境以及预测未来;模型根据历史规律总结,历史规律可能失效;模型结论基于统计工具得到,在极端情形下或存在解释力不足的风险,因此其结果仅做分析参考。本报告提到的任何基金产品不构成任何投资收益的保证或投资建议。告FarmPredict传统人工智能方法挖掘文本信息从而构建股票组合效果一般,范剑青老师等人提出了一个通用的和自适应的高维数据机器学习框架FarmPredict,该模型可以从文本数据中提取潜在测股票未来收益。他们在中国股市的实证结果表面,ct分的向量。潜在因子的数量由调整后特征值阈值方法估计(Fan等,2020a)。这是一个纯粹了在文本数据中使用无监督学习的必要性,因为它可以避免主观假设和限制数据使用的潜在偏差。第二步,我们通过特质因子与学习目标(关联股票的贝塔调整后收益)的基于因子条们使用LASSO模型基于潜在因子和筛选后的特质因子预测资产价格。在每个分析步骤中new的50支股票的权重均为/20请/20告2/20请务必阅读正文之后的声明部分2/20 t 图3:(0,1)X向量下的组合表现(当天股票收益做Y为深蓝) 14图4:X向量为(0,1)下的组合 14 3/20请务必阅读正文之后的声明部分3/20本中直接提取此类信息。tFarmPredict第一步是无监督地从高维新闻向量中学习隐含特征。通过主成分分析(PCA)将多篇新闻词向量X转换为k有来自先验假设(非参数统计)的干扰,所有信息都是从新闻学习的。这种方法也可以避第二步是条件相关筛选(conditionalcorrelationscreening),筛选与学习目标(即新闻对应的股票收益率Y或tchargedwords告4/20请务必阅读正文之后的声明部分4/202.FarmPredict机器学习框架2.1问题设置我们用词级别的统计数据作为n篇文章(词包)中每一篇的总结。设D是我们的n篇文章数据中所有可能在范的914K篇文章的数据集中,有1,181K个独特的词1在整个D组中,只有71K个词出现在至少50篇文章中。2.2FarmPredict方法情 (FarmPredict)。 (1)选择经常使用的词语:在我们数据集里超过110万个不同的词(和短语)中,大部分都很少出现。告5/20请务必阅读正文之后的声明部分5/20这些词也几乎没有用处,因为它们不太可能出现在要打分的新文章中。这种筛选也有助于我们将重Dfreq={j-thwordinD:kj³k}(2.1) Xi=Bfi+ui,i=1,…,n,(2.2)其中fi=Rk是k个潜在因子的向量,B是因子载荷矩阵,ui=RDfreq是不能被fi解释(与fi不相关)的特X=FBT+U其中X和U是nDfreq的数据和特异成分的矩阵,并且F是n×k的潜在因子的矩阵。这里,只有X是可这些因子可以被理解为类似于话题得分,而因子载荷B给这些因子(话题)提供了不同的组合。对这些因素 Dfreq的回报结果Yi。按照Fan等人(2020b)的类似想法,我们用潜在的fi和ui预测因子,建立模型:Yi=a+bTfi+bTui+ei(2.3)告6/20请务必阅读正文之后的声明部分6/20 (3)学习因素和特异性成分:对于一定数量的因子k,我们通过最小二乘法拟合近似的因子模型(2.2),Tntala说,k被估计为校正后的值在统计学上大于1的数量。=max{j<Dfreq:入ˆ>1+CDfreq/(n-1)}(2.4)CXjjnCjpDfreq给定的j,定义:mn,j(z)=p-j-ê1l(l-z)-1+3(jˆj+1/)4-z)-ú,1mn,j(z)=-(1-pj,n-1)z-1+pj,n-1mn,j(z) uY行带截距项的线性回归之后的残差向量。这就取出了Y中可YuFanLv说,u与词j的特异性成分j之间告7/20请务必阅读正文之后的声明部分7/20Fjk阈值α将被定为选择1000个左右的词。这一步是可选的(对应于α=0),但有助于我们加快计算速度。 taˆ,,=argmina,b,båi(Yi-a-bTfi-bTui,)2+入‖b‖1(2.6)Dfrequi是指ui在带情感色彩的的词中的成分。惩罚λ,将由交叉验证选择,控制模型的偏差-方差DfreqSCAD和elasticnet等(Fan等人,2020c;Nagel,2021)。 两个步骤。对于一个给定的新特征Xnew,让我们把它分解为因素和特异性成分。用给定的,将最小二乘法应用于模型(2.2),我们可以得到潜在的因子fnew以及与特征Xnew相关的特异性成分unew:fnew=T-1TXnew,unew=Xnew-new(2.7)new=aˆ+Tfnew+Tunew,(2.8)告8/20请务必阅读正文之后的声明部分8/202.3FarmPredict的变种的任务。首先,响应变量变量Y可以是超额收益或二分法的收益(正或负)。在后一种情况下,我们可以使用条件筛选(2.5)和条件预测(2.7)也可以进行修改以适应Logistic回归模型;见Fan等人(2020c)。或Logistic回归中得知。最后,线性预测模型(2.3)可以被非线性模型所取代:如神经网络模型(Horel和Giesecke,2020)或结构化非参数模型(Fan等,2020c)。2.4特别主题模型SESTM,由Ke等人(2019)提出,是一个特别的的双主题模型,用于学习基于股票收益的新文章的情绪。iiYiSSdi,S~Multinomial(si,piq++(1-pi)q-)(2.9)告9/20请务必阅读正文之后的声明部分9/20θ+和θ_.前者使用Fan和Lv(2008)中的确定(边际)筛选技术,后者则在训练集中回报Yi的百分位排名的学习。一旦学会了带感情色彩的词和它们的语义,一篇新的文章的感情分数pi就可以用基于模S个条件。首先。它需要出现得足够频繁。第二,该词需要与Yi有足够的相关性,这是由它与回报率的符号的边际相关性(Fan和Lv,2008)来衡量的。在目前的情况fj=#articleswithwordj#articlesfj=#articleswithwordjScreen={j:fj³0.5+a+orfj£0.5-a-}Ç{j:kj³k}(2.10) =(PTP)-1PTDS(2.11)2这里计算了当词j出现在文章里时,词j与正收益相关的比例。既然收益要么正要么负,很少正好是0,那么1-fj就是词j与负收10/20请务必阅读正文之后的声明部分10/20P有最主题模型中,SESTM使用信息Y来指导用(2.11)对的学习。对于每一篇文章i,将pi的值分配为归一化秩 (normalizedrank)pˆi=(rankofYiin{Yj}=1/n(2.12)给新文章打分有了在(2.10)中定义的估计量Topic,+and-,我们已经准备好了为新文章分配情感。对于一篇新文章的字数为dnew的新文章,其情感分数是通过惩罚性最大似然法(PMLE)估计的。SESTMpˆnew=argmaxpålog(p++(1-p)qˆj-)d+入PMLElog(p(1-p)),(2.13)jÎSjÎS2.5FarmSelect与SESTM的比较FarmSelectSESTMXiYi。FarmSelect考虑到了情感分配作用。和相互作用,而SESTM则主要使用单个词来计算情感分数。而SESTM主。在选择情感变化的词时,FarmSelect从一个全面的词汇集开始,选择一个词的子集以通过(2.6)对结果进行最佳预测。相比之下,SESTM依靠边际筛选(2.10)来选择,这就忽略了词语之间有着更高的日收益的文章未必表明它有更高的情感。并且,收益是横跨多年比较1/20请务必阅读正文之后的声明部分1/20的相互作用。这一步骤可以通过使用惩罚性逻辑回归(2.14)来改善,代价是更高的计算成本,这使得它与minw,cåiiw+c-log1+expw+c+入Logistic‖w‖1(2.14)Lasso就导致了三种选择带有感情色彩的词Topic用于主题建模的可能1.通过边际相关筛选出的词Screen2.通过惩罚性逻辑回归选择的词Logistic3.两种方法选择的词的并集ScreenLogisticFarmPredictSESTMFarmPredict预测结果。然而。SESTM主要依靠两个模型(2.11)和(2.13)以及情感分数分配(2.12)。因此,它对模型假设的稳健12/20请务必阅读正文之后的声明部分12/20告3.数据获取与定义1数据获取不同于Fanetal.(2021)使用新浪财经的新闻数据,本文使用的新闻数据来自于金融界()。httpstockjrjcomcnxwk00104_1.shtml上即可查看。Fanetal以广度优先的方式从新浪财经主页开始抓取,这种方法依赖于新浪财经主页的状态,不同时间3.2变量定义二进制词向量表示新闻的分词结果是否出现在当期词袋Dfreq中(Dfreq会在后续给出定义)。词频向量表示新闻的词袋中13/20请务必阅读正文之后的声明部分13/20告yrawret发布,yrawret为周三的收益率yrawret_dyrawret大于0,rawret_d为1,否则为0ynextrawret收益率ynextrawret_dybetaretMybetaret_dybetaret大于0,ybetaret_d为1,否则为0ynextbetaretynextrawretCAPM到估计收益ynextbetaret_dynextbetaret大于0,ynextbetaret_d为1,否则为0表示训练时X使用xd(二进制词向量),Y使用yrawret(包含新闻发布时间的两个相邻收盘价计算出来的收益率),预测时同样使用xd(二进制词向量)带入训练模型进行预测。4.模型训练与预测计算1具体训练过程 (1)在每次训练时,使用最近1年的所有新闻数据,对其利用Jieba分词,去除常见停用词和纯数字分词结果,freq告14/20请务必阅读正文之后的声明部分14/20Dfreq={jthwordinD:k³k}(1) 建词向量X。我们构建的词向量包括二进制词向量(分词结果是否出现在当期词袋中)和词频向量(分词结果出现在当期词袋中的次数)。 (3)对词向量进行分解降维。按照Fanetal.(2021)的文章,对词向量进行下列建模:Xi=Bfi+ui,i=1,...,n,=max{j<|Dfreq|:>1+C}X=FBT+U按照Fanetal.(2021)的方法,估计出和后,可以计算出估计的:=X-T (4)中并非所有的词都与新闻相对应的收益Y有很高的相关性,因此根据Fanetal.(2021)对进行条件相关筛选(conditionalcorrelationscreening)。u是Y对线性回归后的残差。筛选过程如下:告15/20请务必阅读正文之后的声明部分15/20 Yi=a+bTfi+bTui,+ei(7),,=argmina,b,båi(Yi-a+bTfi+bTui,)2+入b1(8)4.2预测 分词,利用和训练期相同的词袋构建词向量(二进制词向量和词频向量),得到本交易日的Xnew。 (2)利用训练期估计的因子载荷矩阵,计算本交易日新的隐含因子Fnew和特质矩阵Unew。再结合训练期筛选出的,将Fnew和Unew()带入训练期已经估计好的Lasso模型,得到预测的new。Fnew=T-1TXnew(9)U=XU=X-BFnewnewnewi,new=+Tfi,new+Tui,new,(11) 练和预测,我们举例说明。比如,在2021年12月31日对模型进行更新时,使用的告16/20请务必阅读正文之后的声明部分16/20训练期模型更新日期预测期前十二个月当日后六个月例12021年1月1日至2021年12月31日2021年12月31日2022年1月1日至2022年6月30日例22021年7月1日至2022年6月30日2022年6月30日2022年6月30日至2022年12月31日12/31区间内全除停用词和纯数字分词结果,用2.随机抽样区间内5000条新闻,并3.利用FARM方法(公式2-公式5)4.对U进行条件相关筛选,选取和预测期(2022/1/1-2022/06/30):1.每个交易日收盘前获取自上次收2.利用训练期FARM得到的估计fnew和unew,将fnew和unew()带入训练期的Lasso模型得到预测5.利用公式8进行Lasso拟合,保5.计算结果组合构建规则就是每天收盘集合竞价开始计算模型,算完后,按照当天收盘价买入当前交易日预测值new靠前的50条新闻对应的股票,以当前交易日收盘时的总市值为权重,并持有至下一个交易日收盘时,这个是告X向量是词语频数,Y向量是股票当天或者下一天的收X下的组合表现(当天股票收益做Y为深蓝)上图,如果把X换成(0,1)输入值,效果更好。图3:(0,1)X向量下的组合表现(当天股票收益做Y为深蓝)17/20请务必阅读正文之后的声明部分告18/20请务必阅读正文之后的声明部分18/20图4:X向量为(0,1)下的组合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国粉末剂数据监测研究报告
- 2024至2030年中国热镀锌焊管行业投资前景及策略咨询研究报告
- 2024至2030年中国旋转纵切压线机数据监测研究报告
- 网络安全企业劳动合同模板
- 晋江教师编制合同范例
- 财务培训大院租赁合同
- 造纸行业购销合同管理策略
- 南汇机械设备运输合同范例
- 能源项目合同执行教案分析
- IT行业技术经理聘用合同
- DB44∕T 858-2011 空调器高处作业安全规范
- 实验室十大危险操作和安全隐患
- 妇幼保健院关于修订岗位轮转制度
- 气候影响着人类活动人类活动对气候的影响
- 顶管及盾构施工技术及特点(62页)
- 生产部管理人员考试题(新进转正)范本
- 高中研究性学习如何选择、确立研究性学习课题PPT通用PPT课件
- 6S管理知识图解
- 高速铁路ZPW-2000轨道电路
- 县国家税务局文件材料归档范围及文书档案保管期限表
- 儿童消化道出血诊疗(课堂PPT)
评论
0/150
提交评论