中泰金工文献掘金系列三：机器学习在中文财经文本上有效吗

上传人：策*** IP属地：山西上传时间：2022-11-24 格式：DOCX 页数：32 大小：1.05MB 积分：19.9 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

正文之后的声明部分cn程报告2022年11月23日学术文献做中国市场的主题很少，顶流做中国市场的更少。范剑青老师等人提出了一个通用的和自适应的高维数据机器学习框架FarmPredict，该模型可以从文本数据中提取潜在因子和特质因子，用来输入惩罚回归预测股票未来收益。他们在中国股市的实证结果表融应用中的全新范式，更是证明了大数据无论在数据上还是在方法论上都在“金融投资”中有其核权益市场上的大多数研究使用的文本数据仅限于英文环境的情绪词典或主题建模。但是，我们能否直接从文本数据预测新闻的影响？从这样的直接过程中我们能“学习”到多少内容？基于因子模型和稀疏正则化(FarmPredict)，我们提出了一种全新的文本学习框究，中文文本在单词和短语间没有自然的空格而中国股市有非常高比例的个人投资者。这两个特性使得我们的研究显著不同于前人聚焦英文文本和美国市场的作品。我们使用中国dict股票平均每日超额收益约83bps，而负面新闻在发布日期带来了26bps的负向影响，这两种影响都能持续数天。这种非对称的效应与中国股市的做空限制相吻合。作为总dictJanuaryJianqingFanPrincetonUniversity-BendheimCenterforFinanceirongXuePrincetonUniversity-DepartmentofOperationsResearch&FinancialEngineering(ORFE)InstituteforBigData,FudanUniversity应用在未来可能产生风险。报告19之后的声明部分19正文目录 18报告正文之后的声明部分语义格或股票市场的回报，作为投资组合选择或资产定价的有效工具预测模型(FarmPredict)，可以从考虑短语结构和交叉影响的全)来预测股票收益。由于FarmPredict适应建模过程。CA潜在因子的数量由调整后特征值阈值方法估计(Fan等，2020a)。使骤中FarmPredict也提供了高度的灵活性。00多条新闻，提供即时和全面的中文流行财经新闻报道。我们使用WebCrawler技报告/19之后的声明部分/19术从其网站下载公开可用的新闻网页并提取所关注数据的FarmPredict年至2019年的数在估计情绪得分和相应的回报上的表现。随后使用多种方法验证FarmPredict的情绪评分。义。与adhoc主题模型获得的词汇相比，我们证明了FarmPredict能够捕获更多会被边缘筛选忽略的交互式信件研以及利好与中负面新闻的泄漏或预期做出反应(Chen等，2019；Nagel，以带来83bps的收益而负面消息情绪带来26bps的损失，(正面/负面)新闻的影响都可以持续几天。安慰剂测试的结果我们也依据金融投资模拟测试了我们的机器学习情绪等权多空组合，年化收益率达到116%(夏普比率：9.37)；果了投资组合的风险、α(贝塔调整后收益)和其它部分。α的年了有关中国股市的现实细节，例如交易成本和日度价格限FarmPredict，我们测试了模之后的声明部分2.方法论和符号，然后介绍了一种使用因子增强的新型回归方法(FarmPredict)；随后是FarmPredict框架的变形应用。我们还简要介绍了主题模型(adhoc)及其扩展以便进比较。2.1参数设置单词级别的统计信息作为n篇文章(即词袋)的主要内容。设D是n篇文章的数据中所有可能的中文单词的集合，diND是第i篇文章中每个单词的词向量，di,k为文章中第k个单词出现的次数。每篇文章由几个基本主题(topic)组成，每个主题都有自己的首选词di量潜在因子(latentfactors)的影主要受小的词汇子集的影响。我们称这组词为情绪主导词(sentiment-chargedwords)。又表现得很稀疏。举例来说，在文章所搜集到的214000篇文章中一共包含了现次数为50次以上的只有71000个。2.2FarmPredict模型，助我们聚焦到一个合理全面的单词Dfreq集合(1,0000个词汇左右)。对于词汇的筛选之后的声明部分Dfreq=j−thwordinD:kj>K}其中kj表示第j个词汇在所有文章中的出现频次，K代表我们事先设置的阈值，是一个超参数，它的作用是在Dfreq的全面性以及不常见单词引入的噪声之间取得一个平衡。是由一些潜在的因素影响的，也就是说Xi遵循：Xi=Bfi+μi其中fiRk是潜在因子，B是因子载荷矩阵。残差项μiRDfreq称为特质因子，一个无X=FB+UT(2.2)Fanbfi与特质因子μi建立对收益YiYi=a+bfTi+βTμi+i(2.3)其中i为误差项，使用fi与μi作为自变量会使得变量之间的相关性大幅降低，从而有效在给定因子数量k的情况下，我们使用最小二乘对2.2式进行求解，得到PCA的主成分(求解过程可参考BaiandNg，(2002)；Fan等(2020c)；StockandWatson，(2002))，之后的声明部分kk其中Vk代表矩阵XXT最大的k个特征值代表的特征向量矩阵。而对于超参数k的确定，Fanc据驱动的方法。该方法考虑了观测变量的异质尺度个数。具体来说，k被估计为统计意义上大于1的校正值的数量:种因子之后，我们可以进一步锁定出那些具有明显情绪影响的词语。条件筛选(Conditionalscreening)是寻找与Yu相关度高的词(FanandLv,2008)，更准确j对应于α=0)，但是可以帮助我们加快计算速度。这相当于在Dfreq的基础上又对词集进行了更精准地定位与简化。FarmPredict需要求解下面的带惩罚项最小二乘问题：之后的声明部分i(2.8)之后的声明部分3.数据和分析据收集站。我们的WebCrawler访问了约630万个580万是有效的新闻文章。对于每个下载的网页，发布时间html头部提取。文章主体从对应html文件中ID标记为articleD理清理、选择和准备下载的数据以达到拟合模型的标我们移除重复和高度相似的文章；题都修剪为中文字符；联股票的“有效收益”。Beta-adjustedReturnit=DividendAdjustedReturnit-SSECReturnit得这段时间的股票收益能够充分反应新择最近两个交易日作为有效收益：之后的声明部分随后我们使用Jieba(Sun，2017)来把一篇文章的标题和内容切割为词汇(或短语)的最后，为了平衡数据差异和减低计算量，我们采用降采样使得每天至多有300步统计万个词汇至少出现在50篇文章中(占所有文章的0.004%)。在所有模型中，我们都是万个词汇及其在每篇文章中对应的统计数量开展研究。字数统计矩阵高度稀数为309个词汇和209个独特的词汇。所以在这个7.1万维度的%的非零条目。个节假日。大多数新闻都是股市开市后发布，大约从上午9点左右开结束。午夜后也有一些新闻发布，但主要是自动生成的新闻或海外新参和测试年的数据。更具体地说，我们使用了从2000年到20102011到2014年的数据作为验证集来选择优化参数。对于每个模等权重投资组合。在验证集上具有最高累积回报的超参数组合在所在FarmPredict中，首先从确定方程(2.4)中的C开始调参，它控制了方程中使用^之后的声明部分Dfreq。参数使得保留在中的词汇恰好是500，1000或2000。在验证集上进行带惩罚项的逻辑回归(2.6)可以进一步选择情绪主导词汇。练和测试，以六个月为基准。在调参中选择的每训后的6个月数据用于测试模型。测试中的每篇文章的预测分数都会被记录训19年7-12月作为测试期。10个窗口期，并记录了2015年至2019年每个交易日的预测情绪得根据我们使用数据的分布情况挑选的。在这文章的数量从42.8万到52.9万不等，而输入词汇数量从76.1万到，因此每个窗口的输入量X维度范围从6.6万到7.1万。之后的声明部分4.主要结论4.1情绪评分的验证FarmPredictadhoc中边际筛选的结果对比。下图中的情绪主导FarmPredict能够利用整篇文章的信息，选出一些符合自然人特定语言和写作习惯之后的声明部分2019年12月的贝塔调整后收益的面板数据，我们进行如下多Returnit=Sentimenti,t−1+Returni,t−1+Returni,t−2+Returni,t−3+t+it分，而t是时间(日度)效应。由于收益可能跟过去相关，所以我们加入了滞后项作同模型估计的情绪分数的结果。我们逐渐将控制变量添加到模的正相关关系(列1、4和7)。这种正相关显著地保持稳健，在加入滞后项后有所用来建立高收益(经贝塔调整后)的投资组合。Returnt=AveSentimentt−1+DISPt−1+Returnt−1+Returnt−2+Returnt−3+Dyear+Dmonth+it其中Returnt是上证综指(或深指)的指数收益，AveSentimentt−1是日度平均情绪得结果如表6所示。第1至3列、第4至6栏和第7至9栏描述基于不同模型估计的之后的声明部分过良好调整的模型只能捕获个股信息，但不是整个市场。联合表54.2投资组合绩效建和测试投占比1%，如果少于50个股票(正向或负向)，那么就持有现金。我们在当天收盘时形成我们的头寸拍卖并在第二个交易日的收市竞价时收盘。我们称这个组合为等权组合 (EW)。类似地，我们构建了价值加权组合(VW)，而价值权重使用了股票前一日的与股价相关的信号。表7是各个模型的收益和风险指标。之后的声明部分；价值加权组合的年收益率也达到了48%，但不如等权投资组合。这表明大盘股受redict，可能难以之后的声明部分计投资组合，只在流动性达到最大的闭市集合竞价时进行交，中国股市的卖空限制也可能显著增加卖空成们测试了5年至2019年的年化收益约41.2%，之后的声明部分3敏感性测试输入变量的形式时，我们测试了2*4=8种组合，其中Y取贝塔调整后收X在测试投资组合中的股票数量时，我们测试了25、50和100(多空中的单边个股数量)的情况，发现小规模的投资组合收益表现波动大但累计收益最高。之后的声明部分5.总结

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

中泰金工文献掘金系列三：机器学习在中文财经文本上有效吗

文档简介

温馨提示

最新文档

评论

中泰金工文献掘金系列三：机器学习在中文财经文本上有效吗

文档简介

温馨提示

最新文档

评论

相关文档