FarmPredict机器学习框架：“财经新闻”挖掘与“股票策略”构建

上传人：b*** IP属地：北京上传时间：2023-02-25 格式：DOCX 页数：17 大小：637.77KB 积分：15 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

引言文本作为最常见原始的记录和通信媒介在研究中作为传统结构化数据的补充起着至关重要的作用由媒体新闻和报道中的文本可以反应经济参与人的态度例如他们的评论观点目标和情绪等所以文本数对金融投资也很有作用但是从非结构化且复杂的文本信息中提取准确的含义和信息需要面对其高维特征统计障碍一种普遍的方法是将非结构的文本数据转为结构指标比如通过执行例如单词筛选语义学习和情识别等分析过程这里情绪度量可用于预测资产价格或股票市场的回报作为投资组合选择或资产定价的有效工具。随着数据科学方法论和现代计算机算力的发展，我们可以使用统计学习方法从文本中直接提取此类信息。照nt.使用因子增强正则化预测模（Factor-AugmentedRegularizedModelforPrediction，FarmPedict进行新闻文本预测同于传统的字典方法这种方法能够提取新闻文本的所有词语中提取隐含因子，并考虑了词语之间的相互影响。总体上，FarmPredict架由三大步骤组成。第一步是监督地从高维新闻向量中学习隐含特征通主成分分（PCA将篇新闻词向量X转换为k维的隐含因子F以及特质矩阵U其中隐含因子F的k维可以通过调整后的特征值阈值方法来确定这是一个纯粹的无监督学习过程，没有来自先验假设(非参数统计)的干扰，所有信息都是从新闻学习的。这种方法也可以免主观假设和有限数据使用的潜在偏差。第二步是条件相关筛（conditionalcrrelationscreeing选与学习目（即新对应的股票收益率Y或u密切相关的特质矩阵U中的列筛选出来的U中的列即为感情（sentiment-chargedwords记作S这一步是可选的，如果实施了这一步，计算量则会大幅下降。第三步是aso回归，利用一个简单的LASSO方法，使用隐含因子F以及筛选后仅含有的特质矩阵U来预测相应的股票收益率Y。总之，FarmPredict框的每个步骤都有较高的灵活性。Farmrdct机器学习框架问题设置我们用词级别的统计数据作为n篇文章（词包）中每一篇的总结。设D是我们的n篇文章数据中所有可能的中文词的集合，di是第i篇文章中每个词的词数向量，其中d 是第k个词在文章中出现的次数。每篇i,k|i,k文章由几个基本主题组成其中每个主题都有自己的首选词汇因此我们假设一篇文章的词数di受到少数潜在因素或话题的影响这些因素或话题可以是简单的积极或消极也可以是更复杂的因素包括如文章的态度关的行业部门、作者自己的文字偏好等等。第i条文章与目标结果或反应i有关。在本文中，i将是文章i中的相关股票在新闻发布当日的β-调收益率目标反应{i}主要受一个相对较小的子集的影响我们把这组词语称为情绪化的词语这假设也有助于将维度降低到一个合理的水平词袋数据是非常高维度的并且很稀疏地在每篇文章中出现特别是在中文中。在范的914K篇文章的数据集中，有1,181K个独特的词1在整个D组中，只有71K个词出现在至少50篇文章中。所有的词都被分为两个互不相干的类别带感情色彩的词集S和不带感情色彩的词集N这样DSN。一篇文章的情感分数主要与它的感情色彩的词有关。词数di,S代表了词数di限制在S中的部分。FarmPredict方法在大多数传统的文本分析中如主题模型或基于字典的方法因为对模型有许多限制会导致不灵活和可能不准确的对情感的估计一个自然而然的问题是我们是否可以直接从高维回归中学习情感？为金融领域的情感预测从根本上说是一个回归问题。在这里，我们提出了一个直接的回归框架，叫做正则化因子增强预测模型（FarmPredic）。选择经常使用的词语：在我们数据集里超过110万个不同的词（和短语）中，大部分都很少出现它们的语义很难被机器学习因此我们首先要过滤掉这些只出现在一小部分文章中的不常用的词这些词也几乎没有用处，因为它们不太可能出现在要打分的新文章中。这种筛选也有助于我们将重点缩小到一个合理的全面的词集Dq，大约10，000个左右。假设kj是包含单词j的文章数量，对于一个阈值，我们保持词汇：fq

={jhdnD:kj

³k}阈值将作为超参数，以便在Dq的全面性和不经常出现的词所带来的噪音之间取得平衡。因子建模设X为特征向量其中X 是第i篇文章中j词∈Dq的特征它可以是原始的字数也i i,j可以是简单的{0，1}，表示词j在第i篇文章中不存在或存在。词与词之间的依存关系被认为是由一些潜在的素驱动的也就是说，Xi遵循一个近似的因子模型：i iX=Bf+u, i=,,n,i ii 其中fk是k个潜在因子的向量，B因子载荷矩阵，ui 异成分向量。把因子模型放在矩阵形式中，我们有：

是不能被fi解释（与fi不相关）的特X=T+U其中X和U是nDq的数据和特异成分的矩阵，并且F是k潜在因子的矩阵。这里，只有X被观察到的，FBU将被主成分分析估计。这些因子可以被理解为类似于话题得分而因子载荷B这些因（话题提供了不同的组合对这些因素（主题进行不同的组合例如简短的市场简报和股票研究文章可能都有自己独特的词汇因此受到不同因及其载荷的影响。因子模型通过将Xi中的相关特征分解为因子fi和特异性成分

Dqui来分解它们。假设我们想用Xi来预测相关的回报结果i。按照Fan等人（2020b）的类似想法，我们用潜在的fi

Dqui作为预测因子，建立模型：Y=a+Tf+bTu+i i i i其中i是特异性的噪声。这个模型比i的线性模型更广泛，而且(2.3)中的变量相关性更小。我们还将对β施加一个稀疏性约束，因为大多数词都不带有关于文章情绪或股票收益的信号。学习因素和特异性成分：对一定数量的因子k，我们通过最小二乘法拟合近似的因子模型（2.2），得出主成分分析解决方案是估计的潜在因子 n乘以矩阵T最大的k个特征值的特征向量,XT/nFBXT。见Bai和Ng(2002);Fan等人(2020c);StockandWatson(2002)FBfq/n-)有许多数据驱动的方法来选择因子k的数量可见Fan等和其中的参考文献这里我们使用调整后的特征值阈值法(Fanetl.,2020a)该方法考虑到了观察到的变量的异质性程度fq/n-)k=

{j<

>1+

}j其中ˆC是数据矩阵X的方差矩阵的第j个最大特征值的偏差校正估计值。jjjFan建议=，但这对我们的应用而言太小了。最大的特征值们都是有偏大的偏差的。矫正如下：使ˆ作为实证的特征值并且p|Dfreq|作为维度。对于一个给定的j，定义：jép -1

-1ùm z)

p-jê1ê( -z)

lˆ)4 -zú,ún,j

ë=j1

j j1ûmn,jz)=-1-rjn

)z-1+r

jnm

n,j

z)其中

=(pj)/（n-）。被修正的特征值被定义为ˆC 1 。n,j jn,j j

m ˆ学习有条件的带感情色彩的词S有了学习到的因子我可以使用条件性相关筛选法进一步筛选出预测性词（感情色彩的词语让u为Y在对进行带截距项的线性回归之后的残差向量这就取出了Y以由因子解释的部分。我们寻求的成分来进一步预测u。条件性筛选是寻找与u有高相关性的（Fan和v2008更确切地说，u与词j的特异性成分j的相关性也就是的第j列这个关性是Y和与单词j相关的特征向量之间的偏相关性以潜在因素F为件。给定一个阈值alpha，有条件的带情感色彩的词的定义如下：S={j:

r(j,Y)>a}Ç{j:k

³k}uj阈值α将被为选择1000个左右的词。这一步是可选的（对应于α=0）但有助于我们加快计算速度。ujFamPredict拟合了每一个估计后的变量我们就可以训练我们的回归模型在有条件的带情感色彩的词中，FarmPredict解了惩罚性的最小二乘法。,,=

ï1å

-a-Tf

-bTu

2+l

ï1ý1ýïna,,bïnî i

i i iS ‖þuDq 其中

是i,S

i限制在带情感色彩的的词S中的成分。惩罚λ，将由交叉验证选择，控制模型的偏差-方差trade-off，控制^的稀疏性。这就进一步减少了带情感色彩的词。(2.6)中的Lasso惩也可以改成其他函数，如SCAD和elasicnet等（Fn等人，2020c;Nagel,2021）。给新文章打分一篇新文章的评分包括两个步骤对于一个给定的新特征Xnw让我们把它分解为因素和特异性成分。用给定的，将最小二乘法应用于模型（2），我们可以得到潜在的因子fw以及与特Xnw相关的特异性成分uw：æT-1T f =çB÷ BX , u =X -fnww è ø

nw nw nw因此，它的情绪得分如下

ˆ =ˆ+

bfnw n,sFarPredit的变种FarmPredict在金融文本分析方面具有高度的适应性和灵活性这这使得我们的方法更加灵活能够适应不的任务。首先，响应变量变量Y以是超额收益或二分法的收益（正或负）。在后一种情况下，我们可以使用(2.6)中的惩罚性最小二乘法或惩罚性Logisticegression类似于下面的(2.14)在应用Logistic回归技术的情况下条件筛选（2.5）和条件预测（2.7）也可以进行修改以适应Logistic回归模型；见Fan人（2020c）。其次特征向量可以是原始计数或其修改版本如二分（不存在和存在在后一种情况下也可以从原始计数中获得潜在因子，而因子在二分法特征上的负荷可以从最小二乘法或Logistic回归中得知。第三可以从其他方法中获得带感情色彩的词如下一小节将介绍的边际筛选方法它们也可以通过这些缘筛选的词来得到增强。最后，线性预测模型（2.3）可以被非线性模型所取代：Yigfi,ui,Si如神经网络模型（Horel和Giesecke，2020）或结构化非参数模型（Fan等，2020c）。总之FarmPedict是以种高度可私人定制的方式设计的允许对输入词语筛选和拟合技术进行特别的修改。特别主题模型SESTM，由Ke等人（2019）提出，是一个特别的的双主题模型，用于学习基于股票收益的新文章的情绪它假设每篇文章都是两个主题的混合物--积极和消极并使用混合概率i来表示对第i篇文章的积极情绪因此，i表示第i篇文章的积极情绪程度，1为最积极，0为最消极。当然，i被期望与i的回报率呈正相关。假设句子中性词汇N与分数i或回报i无关，给定带情绪色彩的词S。所以我们可以把注意力放在S上。我们假设字数di,s遵循一个多项式分布diS~Multinoialsi,i++1-i)-)其中θ和θ是两个维度为|S|的参数向量，指的是在纯粹的积极或消极文章中出现带感情色彩的词S的概率。i ii从一组训练数据i ii

中学习情感包括两个主要步骤：学习带有感情色彩的词汇S和学习这些词的语义θ和θ.前者使用Fan和L（2008）中的确定（边际）筛选技术，后者则在训练集中回报i的百分位排名的帮助下使用监督学习。一旦学会了带感情色彩的词和它们的语义，一篇新的文章的感情分数i就可以用基于型的最大似然估计(MLE)来估计。学习带感情色彩的词个词在S被选择是基于两个条件。首先。它需要出现得足够频繁。第二，该词需要与i有足够的相关性，这是由它与回报率的符号的边际相关性（Fan和v，2008）来衡量的。在目前的情况下，这种关联性是2：f=#articlswithwordjANDreturn>0j #ilsithrdj我们来选择带有情感色彩的词：SnS

={j:

³0.5+

£0.5-

}Ç{j:k

阈值α+和α-是在调适时先验选择的超参数。在SESTM中，情变化的词被视为T中，我们将用一些其他的提议来补充这一点。

Sen。在下一小节学习词语的语义设P2，其中第i行为（p，1-p），并且=θ,θ为|S|×2矩阵。设D是一i i s个×|S|的矩阵，其第i行是第i篇文章中带感情色彩的词的比例。那么，从多项式假设来看，我们有期望值sDs为：

这意味着s可以被近似地表示为两个秩为2的矩阵的乘积。给定P,可以通过最小二乘法估计S=(T-1TDS2这里计算了当词j出现在文章里时，词j与正收益相关的比例。既然收益要么正要么负，很少正好是0，那么1-j就是词j与负收益相关的比例。因此，只有这两个数字是含有信息的。给定,P同样可以通过最小平方回归得到。在合适的可识别性约束条件下进行迭代，可以得到一个具有佳ank-2近似值的问题解决方案。在技术上来说，和P可以通过最佳rank-2近似和可识别性条件从数据矩阵s中学习到。在这个特设的主题模型中，SESTM用信息Y指导用（2.11）对的学习。对于每一篇文章i，将i的值分配为归一化秩（normalizedrank）ˆ=(nk

ofY

÷/

i i jj1ø这种估计在直觉上是合理的但这种分配可能包含许多错误3这种估计在直觉上是合理的但这种分配可能包含许多错误3用^代替p语义被估计为 T

ΘPP

1P1给新文章打分有了在2.10）中定义的估计量Topic，

and

，我们已经准备好了为新文章分配情感。对于一篇新文章的字数为dnew的新文章，其情感分数pnew是通过惩罚性最大似然法（PMLE）估计的。使用

åg(

+1-p

dnwj)+j)

1-p,p j+SjopcS对于一个给定的调整参数E。FarSelct与SESTM的比较

PMEFarmSelect和SESTM都用单词特征Xi和其相关的结果i来学习情感评分。FarmSelect考虑到了情感分配中词与词之间的依赖性和相互作用。和相互作用，而SESTM则主要用单个词来计算情感分数。而SESTM主要使用单个词来得出情感分数。在选择情感变化的词时，FarmSelect从一个全面的词汇集开始，选择一个词的集以通过（2.6）对结果进行最佳预测。相比之下，SESTM靠边际筛选（2.10）来选择，这就忽略了词语之间3情感的分配过度依赖于随机的交易结果。一篇有着更高的日收益的文章未必表明它有更高的情感。并且，收益是横跨多年比的，所有市场风险因子都影响着收益并被用来分配文章的情感，这是不合理的。的相互作用。这一步骤可以通过使用惩罚性逻辑回归（2.14）来改善，代价是更高的计算成本，这使得它FarmSelect相似。让t∈{0，1}表示回报是负的还是正的，t是二元特征的向量，表示一个词是否出现在文章i中。我们仅仅局限于至少出现在κ篇文章中的词，然后拟合惩罚性逻辑回归。éçT

æT

ùminwcåièXiw+c÷-log1+xpèiw+cú+l

‖‖iê ø

1ë û带情感色彩的词可以被选为对应于w中非零entry的词。将所得的词集表示为iic。惩罚可以沿LogisticLasso路径选择，以控制所选词语的数量。这就导致了三种选择带有感情色彩的词ˆc用于主题建模的可能性：通过边际相关筛选出的词ˆScreen通过惩罚性逻辑回归选择的词ogsic两种方法选择的词的并

ˆScreenogistic在实证研究中，我们会测试每一个。FarmPredictSESTM都赖于一些模型假设FarmPredict意找到一组因素和带感情色彩的词来直接预测结果然而SESTM主要靠两个模（2.11（2.13以及情感分数分（2.12因此它对模型假设的稳健性不如FarmPredict正（2.11中所指出的虽然P的估计直觉上是合理的但也存在一些问题这也是我们开发新模型的另一个原因。数据获取与定义数据获取不同于Fanetl.2021)使用新浪财经的新闻数据，本文使用的新闻数据来自于金融界（）。我们采用金融界的新闻数据有两方面的原因第一在数据完整性上金融界可以查看每一天与股票相关的新闻，如要查看2010年1月4日有些新闻，在/xwk/201001/20100104_1.shtml上即可查看。而Fanetal.(2021)以广度优先的方式从新浪财经主页开始抓取，这种方法依赖于新浪财经主页的状态，不同时间抓取的结果可能会有差异而且抓取的结果不一定完整通过金融界抓取每次的抓取结果都是一样的而且是完整的第二在数据更新的及时性上金融界按照日期对新闻进行归类可以在当天日期下看到当天全部最新的新闻数据而按照以广度优先的方式从新浪财经主页爬取更新当天的新闻比较耗费时间而且如果当天新闻不能通过主页上的新闻进行跳转则有可能获取的当天新闻是不全的基于这两方面的原因我们选择了金融界作为新闻数据源。对于已经抓取到本地的新闻我们首先移除重复和高度相似的文章其次将新闻和股票进行匹配舍弃无法匹配或不满足唯一匹配的文章配方法是搜索新闻标题和正文中是否含有股票代码或者股票简称如果含有且唯一含有相关股票代码和股票简称，则将其视为相关股票的新闻。变量定义在后续的训练和预测中每一条新闻都会被转换成相对应的词向量X每一个X也都会有对应的收益率Y。对于词向量X有两种形式分别是二进制词向（x_dichotomized记为d和词频向（x_count记为c。二进制词向量表示新闻的分词结果是否出现在当期词袋q（Dq会在后续给出定义词频向量表示新闻的分词结果出现在当期词袋Dq中的次数。表1也给出了词向量X的解释。表：词向量定义词向量X 定义d 零一向量，表示新闻的分词结果是否出现在期的词袋中c 非负整数向量，表示新闻的分词结果现在当期的词袋中的频资料来源：对于收益率Y，有三个分类，分别是①新闻对应的当期收益和下期收益，②原始收益和beta收益；③连收益和零一收益。222=8一共8个收益率Y，表2给出了收益率Y的详细解释。表：收益率定义收益率Y 定义ywet 包含新闻发布时间的两个相邻收盘价计算出来的收益率。如果一条新闻在周二的14:00发布yrawret为周一收盘价至周二收盘价之间的收益率周二的收益率如一条新闻在周二15:05发布，yrawret为周三的收益率ywe_dyrawret大于0，rawret_d为，否则为0yetwet新闻发布后的第一个收盘价与第二个收盘价间的收益率。如果一条新闻在周二的14:00发布，yextrawret为周三一天的收益率果一条新闻在周二的15:05发布ynextrawet为周四一天的收益率yetwe_dyt大于awd为为0yetaet 将yrawret带入该股票用上证指数估计的CAPM中得到估计收益其中CAPM是新闻上一自然年度年度的该股票收益对上证综指收益回归得到的yetaet_dybetaret大于，ybetaret_d为1，否则为0yextbetaet将ynextrawret带入该股票用上证指数估计的CAPM中，得估计收yextbetaet_dyt大于d为为0资料来源：我们在训练和预测时使用了不同形式的X和Y在标识模型结果时也使用了不同的符号比如xd_yrawret表示训练时X使用x（进制词向量，Y使用yrawre（包含新闻发布时间的两个相邻收盘价计算出来的收益率），预测时同样使用xd（二进制向量）带入训练模型进行预测。模型训练与预测计算在本文中模型使用滚动的方法进行训练和预测每半年更新一次训练参数供下一个半年预测使用比如6月30日新的训练模型供当年7月1日至2月31日使，12月31更新的训练模型供次年1月1至6月30日使用。具体训练过程在每训练时，使用最近1年的所有新闻数据，对利用Jieba分词，去除常见停用词和纯数字分词结果，得到所有分词结果D。停用词来源于s//ubcm/6/swds，包括百度、哈工大等公开中文停用词在分词结果D中选择出现频率最高的前%作为词袋为后续构建词向量做准备兼顾到运算速度我们选择了本期频数最高的前500个词构建词袋Dq。Dfq={j

wodinD:k³

)考虑为提高运算速度我们从最近1年的所有新闻中随机抽样5000篇新闻并对这些抽样出来的新闻构建词向量X我们构建的词向量包括二进制词向（分词结果是否出现在当期词袋中和词频向（分词结出现在当期词袋中的次数）。对词量进行分解降维。按照Fanetal.(2021)的文章，对词向量进行下列建模：Xi=Bi+ui,i=,...,n,

)其中fi是k维的隐含因子向量，B是因子载荷矩阵，ui是无法用fi解释的特质向量。参考Fanetl.2020，|Dfq|n|Dfq|n-1ljk=x{j|

>1+

} )若将公式(2)写为向量形式，则是

X=FT+U

)按照Fanetal.(2021)的方法，估计出和后，可以计算出估计的： U=X-FB

)中并非所有的词都与新闻相对应的收益Y有很高的相关性，因此根据Fanetl.2021)对进行条件相lan。u是Y对线性回归后的残差。筛选过程如下：jS={j:|orr(j,u)>a}Ç{j:kj

)为j和u的相关性阈值。考虑到计算速度，我们将筛选为与u相关性最高的100个词。至此我们得到了和)。将和)作为输入值，将新闻所对应的收益Y作为输出值，进行估计：Y=a+Tf

+bTu +

),,=

i iï1å

is-a+Tf

i+bTu

2+lb

)iab,bîni

i i is

1þ得到估计参数a,b,。将FARM中估计的因子载荷矩阵和a,b,保存起来，供预测期使用。预测预测训练完成后，随后半年预测则使用训练时的参数，具体过程如下：每个交易日收盘前将上个交易日收盘结束后至本交易日收盘结束前的所有与股票相关联的新闻进分词，利用和训练期相同的词袋构建词向量（二进制词向量和词频向量），得到本交易日的Xw。利用训练期估计的因子载荷矩阵，计算本交易日新的隐含因子nw和特质矩阵Unw。再结合训期筛选出的，将w和Unew()带入训练期已经估计好的Lasso模型，得到预测的nw。æT1TF =çBB÷ BX

)nw è ø

nwnw nw U =X nw nw new

== bf

news

在本易日收盘前买入预测值nw最靠前的50条新闻对应的股票并持有至下一个交易日收盘时每次计算是收盘集合竞价开始的时候开始计算。为更明确地解释滚动训练和预测，我们举例说明。比如，在2021年2月31日模型进行更新时，使用的时间段为2021年1月1至2021年2月31日在2022年1月1日至2022年6月0预测时使用2021年1月1日至2021年2月31日时段训练出来的模型参数，具体步骤如图1所示。在2022年6月0日更新模型时，使用2021年7月1日至2022年6月30日的数据进行更新，在2022年6月30日至2022年2月31日预测，使用该区间的训练参数结果。依次滚动。图：t训练和预测过程示例训练期模型更新日期测期前十二个月当日六个月2211月1至201年2

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

FarmPredict机器学习框架：“财经新闻”挖掘与“股票策略”构建

文档简介

温馨提示

最新文档

评论

相关文档