![基于蒸馏大模型的金融文本信息挖掘应用探索_第1页](http://file4.renrendoc.com/view/89e4f915c850e33a942ccae1f3499fb6/89e4f915c850e33a942ccae1f3499fb61.gif)
![基于蒸馏大模型的金融文本信息挖掘应用探索_第2页](http://file4.renrendoc.com/view/89e4f915c850e33a942ccae1f3499fb6/89e4f915c850e33a942ccae1f3499fb62.gif)
![基于蒸馏大模型的金融文本信息挖掘应用探索_第3页](http://file4.renrendoc.com/view/89e4f915c850e33a942ccae1f3499fb6/89e4f915c850e33a942ccae1f3499fb63.gif)
![基于蒸馏大模型的金融文本信息挖掘应用探索_第4页](http://file4.renrendoc.com/view/89e4f915c850e33a942ccae1f3499fb6/89e4f915c850e33a942ccae1f3499fb64.gif)
![基于蒸馏大模型的金融文本信息挖掘应用探索_第5页](http://file4.renrendoc.com/view/89e4f915c850e33a942ccae1f3499fb6/89e4f915c850e33a942ccae1f3499fb65.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
▍语义大模型时代来临,更强的LP技术有望赋能融文本应用在NP技术上,语义大模型有哪些特点和优势?特点一基于ansfomer结构深度提取语料信息217年shshaswani在论文《ttntionIsAlouNeed》中首次提出了rasfomer结构,后续的大模型基于rafomer结构在海量语料上训练学习,进而生产亿级参数。其中,T模型采用rafomer的编码器模块,而GT系列则采用rasfomr的解码器模块。特点二:采用“超大样本自监督学习算法”增强大模型性能。自监督学习算法能在无标注数据上进行训练。大模型学习数据量更大,参数量更大,则泛化能力更强。年,arlCobe在论文《mergentbltesofLrgeLngugeModes》中实验证明了大模型的表现并非随着规模增加而线性增长而是训练量或者参数量提升到一定临界值后大幅增强。特点三经“小样本迁移学习算法微调模型在垂直应用场景中性能提升明显。迁移学习是将从一项任(例如文本分类中学到“知识应用到另一项任务(如情感分析大模型借助迁移学习在小样本中微调可适配不同垂直场景任务表示,经过微调后的大模型在不同应用中的提升非常明显(例如,微调后G-3在解数学题中准确度能提升-4倍。图:大模型础Tfmr的结构 图:通用PT3和微后GPT3分别在数学目上正确率 通用GPT的准确率 微调后GPT的准确率0%0%0%0%Cui版本GPT3 Davici版GPT3资料来源:《AttentionIsAllYouNeed》AshishVaswani,
资料来源:《TrainingVerifierstoSolveMathWordProblems》KarlCobbe,在金融文本处理任务中早期一般采用基于规则或者传统机器学习方(比如线回归、CA等)提取文本信息;随着大数据和NLP技术的发展,以神经网络为代表的度学习模型进一步提升准确度但只能完成单一的分类任务而大模型运用于金融文本分析有以下几优势:)语义理解能力强:预训练大模型已完成建模和大语料学习,参数规模巨大,天生具备强大的语义理解能力;)支持多任务处理能力:相较于传统模型单一分类功能大模型能完成多类文本任(比如金融文本情感判断上市公司或者主题别等成本优势传模型的构建需要相应的开发人员和大规模的标注数据而大型降低了I研发难度和训练成本,采用小样本数据微调模型即可适配投研场景。表:传统语模型s语义大型传统机器学习模型(例如:oii、PCA等)与特征数线相关一般
深度学习模型(例如:、SM等
语义大模型(例如:GP、EIE等)参数规训练样
过万级即使增训练本能也无法提升
千万、个参级别 千亿、亿个数级别预训练千亿观测量级百万、万个测值级微调:个观值量级预训练月级训练代价 小时级 天
微调:时级语义能力 弱 强 极是否支持多任务
否 否 能落地成本
需要较的模开发力和注数据
需要较的模开发力大样本注数据
小样本准数据资料来源:《金融学文本大数据挖掘方法与研究进展》姚加权,借助大模型NP技术开展金融文本分析,有利于掌握投资先机海量金融文本蕴含增量lpha随着信息化的发展很多影响市场的信息最先以文的方式进行传播大量的金融新闻中都包含有对上市公司经营状况的正面或负面描述于股票定价来说金融文本可能蕴含有传统投资数据之外的增量信息本文尝试对财经闻、分析师报告和公司公告文本库开展分析。图:文本信影响场示图 资料来源:表:金融文数据介绍数据名称 文本研究对象 数据起始时间 缺失情况 滞后性 更新频率新闻舆情 媒体 3年1月 部分媒缺失部分券数据在
滞后期三个易每日日以内分析师告 分析师 6年1
无滞后期 每日缺失滞后期两个易公司公告 管理层 8年1月 无缺资料来源:wind,朝阳永续,
每日日以内开展文本信息分析,即可监测市场动向。金融文本大数据的分析可以从三方面展:关注度:上市公司在文本中(例如:新闻报道、分析师研报)提及次数越多,意味着市场关注度越高与此同时行业在金融文本中提及次数的突然增加也可能意味着市场注热点的切换,我们也能从中捕捉到行业层面的投资机会;)情绪指标:文本中情绪常有正面和负面积极和消极看涨和看跌等不同表述通“语调可以跟踪文本对象绪;)市场分歧指标:基于文本情绪可以进一步构建市场分歧指标。当市场上的投资者观点不同时,乐观的交易者会推动价格上升,市场则可能出现获利的机会。为此本篇报告详细描述了预训练大模型在金融文本分析任务上的构建步骤构建标并检验数据策略的有效性以及适用范围,具体研究工作主要包括以下两个方面:首先,梳理了大模型的构建流程,基于预测结果分析并构建指标;其次,构建数据策略,对于定期选股、重要指数分层进行详细地分析讨论。图:借助大型P技术开展融文本析示图 资料来源:▍金融文本提供多维视角,文本蕴含市场消息面信息财经新闻:发文数量逐年增长,数据易获取且覆盖全A较完整财经新闻数据库说明:我们采用ind底层数据库中的金融新闻数据,该数据中部财经新闻文本与所涉及的股票对应上部分新闻有正负面的情感标注可利用标注好的闻数据微调大模型,从而应用到更多未标注的金融文本上。表:财经新数据的原数样本发布时间 新闻标题 新闻内容 新闻来源 相关公司 市场情阿里巴将走组织理的新段,构
3月8日阿里巴团董事主席首席行官张发出封全信,宣启动里巴4年来最重要的织变革三六零实际制人周鸿祎将.公司份分割胡欢下
建「++」的组织结:在巴巴集团之下设立里云能宝猫商本地生、国数字业、鸟大文娱等6大业务团和家业公司具备条件的业集团公司都有立资和上市的可性。三六零告,司实控制周祎与胡欢经友协商已办解除姻系手并就股分割事宜出相安。周鸿祎拟将接持的司.股份分割至胡欢名。本权益动不导公司控股股东实际制人生变,涉及公司控制变更。
6氪 阿里巴财联社 三六零
O:港股正面O:公司正面O:市场情绪:正面情绪.K:蚂蚁集团正面.S:三六 零 负 面JF:负面新闻O:市场情绪TITLEF:标题预警O:A股负面资料来:in,财经新闻逐年增长,每月新发文数超0万条。截至23年4月9日,nd上可获取的财经新闻共计超1837万条,今年3月财经新闻共有42.5万条,同比增长26%,创当月发文数量历史新高。从数据源来看,2022-01-01至2023-03-31,和证券之星是主要的财经新闻来源,在top10数据源发文量中占比分别达到33.3%和19.6%。图:各月份经新数量及比增速 财经新数量 同增(),0,0,0,0,0,0,0,0,00
.4.21.8.6.4.20.2.4-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3资料来源:wind,图:22年以来ind金融数据库部分据来分布 证券之星 新浪 格隆汇 财联社每日经济新闻第一财经 凤凰网 证券时报网 金融界,0,0,0,0,0,0,0,0,0,00资料来源:wind,新闻媒体对于A股市场覆盖较完备。截至3年3月底,沪深0成分股和中证0成分股内覆盖度已经达到%全A股覆盖度达到%随着时间的推移全A股覆盖度也在逐渐上升数据滞后期来看绝大部分财经新闻文本当天入库2--至3--,9%的财经新闻均能当天被收录,新闻信息有效性有一定保障。图:按月度计的闻舆覆度情况 图:ind财经新入库后情况沪深股 中证全A股
.%
.%-1-5-1-5-9-1-5-9-1-5-9-1-5-9-1-5-9-1资料来源:wind, 资料来源:wind,财经新闻数量能够反映当前市场主题热度。从新闻数量来看,2年年初,数字经济和稳增长主题的新闻报道数量较多而到了今年年初数字经济大模型和IGC主的新闻报道迎来爆发式增长,稳增长主题热度有所下降。图:22年以来个主新闻量变化况 ,0,00大模型闻数(单:篇) AIG新闻数量单位篇)数字经新闻量(位:) 稳增长,0,00资料来源:wind,从正面新闻与负面新闻数量的对比来看根据nd标签可以看到在7年至年,正面新闻的数量总体上要多于负面新闻,在9年之后,负面新闻的数量则远多正面新闻,而在近期今年三月份正面新闻明显增多。图:正面新闻负面闻数对比情况 正面情新闻量 负面情新闻量(轴),0,0,0,0,0,0,0,0,0,00
,0,0,0,0,0,0,0--1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3资料来源:wind,我们将2年以来的新闻文本进行分词并统计词频。词云中的字号越大说明词频高正面情绪的新闻中“增长“增持“看好“改善“中标等词出现次数较多负面情绪的新闻中“利空“亏损“减持“辞职“下降”等词出现次数较多。图:正面情绪财经闻词云 图:负面情绪财经闻词云 资料来源:wind, 资料来源:wind,分析师研报:时效性和有效性较强,文本观点和语调具有较大挖掘价值分析师研报数据库说明朝阳永续作为市场上专业的研究报告大数据分析平台收不同类型的公司研报文本该数据库中所有分析师公司研报文本包含标题和研报首页容,所有分析师公司研报都有公司评级,后续可基于公司评级作为对比策略。随着国内权益市场的快速发展分析师公司研究报告数量逐步增长根据朝阳永续的数据22年前9个月报告数量超过7万篇日均报告数达到0篇从分析师发布报告的频次来看分析师发布报告时间相对集中每年的3月4月8月0月报告数量明显多于其他月份,主要因为财报发布后,分析师及时更新观点和预测数据。图:各月份分师公研究告数量及同增速公司研报告量(位:篇) 同比增(右).0.5.0.5.0.5.0.5.0.5.0
资料来源:朝阳永续,分析师报告的类型多样化报告信息入库及时从覆盖领域来看分析师报告囊括个股港股行业研究宏观策略基金研究等等其中个股及行业研究报告是分析师报的主要构成这二大类占比达73另外朝阳永续对于分析师报告的收录具有较高的及时性,-1至-03,超过8%的报告在分析师发布两天内能够及时入库。图:朝阳永续析师股报分布情况 图:朝阳永续析师股报入库滞情况 告 预表深度报告 新股研究 调研报告60,50,00040,00030,00020,00010,0000
-1-2-3-4-5-1-2-3-4-5-6-7-8-9-0-1-2-1-2-3资料来源:朝阳永续,,注:数据时间范围为2022-01至,同下
资料来源:朝阳永续,近年来随着注册制的实施全市场的公司研报覆盖率呈现上升趋势近年来A股上市公司数量迅速增加这导致了分析师覆盖的绝对数量有所提升但覆盖率有所下行年之前分析师能够覆盖%以上的股票,7年之后随着新股发行速度的提升,覆盖率下降到%左右;而1年覆盖率仅为%,下降至近十年最低值;2年覆盖率为%,开始逐步呈现上升趋势。图:个股报告量以覆盖情况 个股报覆盖(右) 个股报数量 A股上市公司量0
资料来源:朝阳永续,wind,我们将2年以来的分析师研报的标题和首页进行分词并统计词频,词云中的字越大说明词频越高“买入评级公司研报中“增长“做多“发展“低估值“提速等词出现次数较多“卖出评级公司研报中“风险“回避“下行“压力“下降”等词出现次数较多。图:“买入”级公研报词云 图:“卖出”级公研报词云 资料来源:朝阳永续, 资料来源:朝阳永续,公司公告:反映管理层的决策和意图,文本包含未来公司重要信息公司公告数据库说明:对于公司公告数据的获取,我们使用ind底层公司公告数据库原始数据包括公告发布时间公告标题公告内容公告类型等信息由于公司公告的类型较多,我们选取了有价值信息的公告进行处理分析,包括:财务报告、重大事项、交易提示、配股、增发、股权股本以及一般公告。表:公司公数据的原数样本发布时间 公告标题 公告主要内容 类型本期业预计况、业绩告间:3年1月1日至3年3月1日、预计的营业:预净利为值且属下列形之:净润利:0万元0万元盈.7万比上年期增.%.扣除非经常
钱江摩托3年一度业绩告中国移动关实际制人增公司份进展暨增计划期的公告
性损益的净润盈0万元0万元盈.9万元比年同期长:.%.基本股收利:.9元股–.8元股盈利:.8元股业绩变原因明报期绩增长要原为公内销排摩托车量及收入同大幅增长银行款息收入比增。重要内提示中国动有公(以下公司本公实际制中国移通信团有公(简“中移动团计自2年1月日至2年2月1日期间内机增持公司民币通以简“A)股份计增金额少于民币0亿元且不超过民币0亿以下简“增持计划持计延期原及有关排基对公未来续健发展信心和长期资价的认为应资者切积极行承更保广大投者的利益强投者信同受司定期告静窗口授第期期权项静默窗口以及假日市等观因影响中国动集本次份持计划能法在原期限完成。
财务报告:业绩预报重大事项股份增持资料来:in(含预测),公司公告发布数量常年稳定,财报披露期公司发文较多。截至3年4月9日,wnd上可获取的公司公告共计超8万条。结合以往公告数量来看,公司发布公告存着周期性其中年报披露期4月份与半年报披露期8月份往往是公司发文数量“点,而2月份与1月份一般是公司公告数量的“低点。图:各月份公公告量以同比增速 公司公数量 同比增(右),0,0,0,0,0,0,0,0,00
10%20%30%--1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3资料来源:wind,一般公告、重大事项和财务报告为最主要的来源。据nd数据库数据,-至3-,一般公告、重大事项和财务报告在全部公司公告文本中占比分别为%、%和%;并且%公告均能当天被收录,公告信息的有效性有一定保障。图:公司公告布情况 图:公司公告库滞情况一般公告 重大事项 财务报告 股权股招股 增发 交易提示 配股200,000
.%150,000100,000,0-1--1-2-3-4-5-6-7-8-9-0-1-2-1-2-3当天入库 非当天库资料来源:wind,,注:数据时间范围为2022-01至,同下
资料来源:wind,我们将2年以来的公告标题和正文进行分词并统计词频,词云中的字号越大说明词频越高正面公告中“增长“业绩“提速“改善“信心等词出现次数较多。负面公告中“下降“减持“亏损“风险“压力”等词出现次数较多。图:正面公告词云 图:负面公告词云 资料来源:wind, 资料来源:wind,▍基于大模型的金融文本应用指标构建流程面向金融文本任务大模型微调流程主要分四个步骤模型选择模型参数以及计硬件设置微调数据预处理和模型预测使用微调模型构建金融文本应用指标有三类注度指标、情绪指标和市场分歧指标。面向垂类金融文本数据应用,下载并微调国内中文大模型步骤一:考虑数据安全和可及性,选择国内百度文心大模型作为基础模型。一方面,百度文心大模型更具有本地优势在中文语境中表现优异并保障了数据安全另一方面,百度基于蒸馏方式利用了文心大模型的规模优势在蒸馏完成后保证学生模型的效果和寸丰富性,方便不同性能需求的应用场景使用。根据百度描述,文心RNIE0ny在线蒸馏方案效果显著,模型参数压缩率可达%,压缩版模型仅保留%参数规模就能与原有模型效果相当刷新了中文小模型的A成绩相比常见的T模型文心RNIE3.0ny在大多数中英文任务上具有更优异的表现。图:百度文心线蒸技术意图 资料来:PleP官网表:百度心EE.0iny预训练模效果于ETinyE,hinee(对比模型)FQ(对比模型)FQMC.%.%WS.%.%同领域内数据测试IFLEK.%.%(ndm)OLI.%.%LWSC.%.%SL.%.%跨领域数据测试CLI.%.%(utdomi)SOPIG0.%.%SM.%.%摘要提取任务(wourc)EPSMT.%SLP.%.%平均值-.%.%
百度E.0iny资料来源:《ERNIE3.0Tiny:FrustratinglySimpleMethodtoImproveTask-AgnosticDistillationGeneralization》WeixinLiu,接着,使用adeNLP只需要一行代码就可以下载并获取百度文心RNIE3.0ny预训练模型,之后可以用自己的下游数据进行微调。目前RNIE3.0ny主要开放了三类功能:文本分类、序列标注以及阅读理解。图:百度文心E.0Tiny模型目提供大功能资料来:PleP官网,步骤二设置微调参数以及本地硬件配置参数在微调阶段模型在与目标任务或域相关的更具体更小的数据集上进一步训练这有助于模型适应任务的特殊要求这我们给出了本地部署模型时微调参数和硬件配置参数。表:EIE.0iny微调参数硬件配设置名称类型参数选择说明ie.tiny模型名称-大模型线蒸技术产出多轻量型。Ech模型微参数,,,,}微调练型的代次。Bcsie模型微参数,,,}微调时型一训练抓取数样本数。tteinte模型微参数模型微参数.,.}.,.,.,.}微调时练模的裁程度可过设置数避免型过合。微调时练模的学率。asleth模型微参数文本最长度超过分会断。GPU硬件配参数APIEB模型训和预时需的运硬。内存硬件配参数模型训和预时需的运空。硬盘硬件配参数存储数所需硬件间。资料来源:PaddleNLP官网,步骤三:预处理微调所需的文本数据。微调所需的数据集来源于雪球和nd资讯布的正负面新闻,采集到6条新闻标题作为种子数据集,其中正面新闻7条,负面新闻9条。该数据包括了新闻发布时间、新闻标题、新闻内容、新闻来源、新闻应公司的股票代码和情感分类标签等内容在运用于后续任务之前需要对金融舆情数进行预处理,步骤如下:筛选出与A股个股相关的新闻;剔除行情类的新闻以及标题中含有“快讯“涨“跌”的新闻;将新闻标题与新闻内容整合为一条文本,并去除文本中的空格;提取文本情感分类结果,将正面新闻打上标签,将负面新闻打上标签;保留新闻发布时间、新闻来源、情感分类标签、股票代码和新闻文本五个字段步骤四检验模型微调结果使用调参好的大模型对文本中每一句文本的情感得分进行预测并展示三类文本模型预测效果由以下案例可见从预测的准确性来看大模对于金融文本的情感分析都是比较合理的,做出了与人类相似的判断。发布时间标题主要内容文本类型情感预测情绪得分三六零实际三六零告,发布时间标题主要内容文本类型情感预测情绪得分三六零实际三六零告,司实控制周祎与胡经友协商已办理控制人鸿祎解除婚关系续,就股分等事宜出相安排周鸿祎拟将.公拟将其接持的司.股份分割至欢名。本权益变新闻舆情负面.1司股份割至动不会致公控股东、际制人发变化不涉公司控胡欢名下制权变。德业份核心观点司逆器销快速量利能持续升驱动业年年报评:绩高增随着司产和市结进一步化,及产规模扩光储逆器量,盈持高增张释放盈利望延高增。整公司5年S预测 正面 .2告分别为././.4元予目价8(对应3年7倍),维“买”评。重要内提示中国动有公实际控人中移动信集团中国移动关于有限公计划自2年1月1日至2年2月1日期间内实际控人增择机增本公人民普通股,累计持金不少人民币持公司份进0亿元且不超过民币0亿元增持计延期原因有关安 公司公告 正面 .3展暨增计划排基于公司来持稳健展信心和期投价值认可,延期的告为回应资者切积极行承更保护大投者的益、增强投者信。分析师报资料来源:wind,朝阳永续,雪球,测算关注度指标:实时反映当前热点,当前成长科技类行业关注度高基于大模型标注的新闻数量构建关注度指标作为金融市场的信息制造和传播者媒体的关注一方面可以影响市场参与者的关注另一方面也影响市场信息的传播效率和模式基于此关注度反映的是财经媒体对于特定上市公司行业或市场的关注程度基于大型在财经新闻上标注的上市公司统计特定新闻媒体所发布的新闻数量来构建关注度们按照以下步骤完成个股和行业的关注度指标构建:首先,在每个观察日里获取过去N天内的特定媒体所发布的财经新闻文本;之后使用微调后大模型的阅读理解能力获取财经新闻中的相关上市公司信息;构建公司关注度指标,统计上市公司相关的新闻绝对数量作为关注度指标;构建行业关注度指标对行业内上市公司的关注度求和除以当日行业内处于市状态的成分股总数,基于标准化得到行业层面的关注度。图:上市公司关注构建意图资料来源:图:行业的关度构示意图资料来源:个股层面,行业龙头股关注度较高。根据构建的指标,2年以来,宁德时代、比亚迪和贵州茅台稳居每月关注度前三名,并且排名前十的个股大多数市值超百亿。表:2年以来月关度t0上市公司op1op2op3op4op5op6op7op8op9op宁德时代比亚迪贵州茅台九安医疗中国移动招商银行兴业银行长城汽车中信证券万科A宁德时代比亚迪贵州茅台中国移动药明康德万科A兴业银行东方财富长城汽车招商银行贵州茅台比亚迪宁德时代万科A招商银行兴业银行中国医药中国平安五粮液建设银行宁德时代比亚迪贵州茅台招商银行万科A隆基绿能五粮液保利发展工商银行阳光电源比亚迪宁德时代贵州茅台长城汽车招商银行新华制药中通客车格力电器长安汽车隆基绿能比亚迪宁德时代贵州茅台长安汽车万科A天齐锂业光大证券隆基绿能长城汽车招商银行比亚迪宁德时代贵州茅台天齐锂业招商银行隆基绿能长安汽车赣锋锂业通威股份兴业银行比亚迪宁德时代贵州茅台隆基绿能天齐锂业通威股份长安汽车招商银行中国中免万科A比亚迪宁德时代贵州茅台万科A天齐锂业招商银行隆基绿能五粮液通威股份顺丰控股比亚迪贵州茅台宁德时代五粮液泸州老窖隆基绿能山西汾酒东方财富招商银行海天味业op1op2op3op4op5op6op7op8op9op比亚迪宁德时代贵州茅台万科A中国联通以岭药业隆基绿能众生药业歌尔股份五粮液比亚迪宁德时代贵州茅台新华制药五粮液以岭药业万科A隆基绿能中国联通中国移动比亚迪宁德时代贵州茅台五粮液隆基绿能招商银行天齐锂业中国平安长安汽车东方财富比亚迪宁德时代贵州茅台科大讯飞汉王科技中国电信五粮液云从科技海天瑞声隆基绿能资料来源:wind,测算行业层面,指标覆盖全行业,今年3月计算机、通信、建筑、石油石化行业关注高。wnd财经新闻数据库显示财经新闻数据覆盖全行业但媒体对于不同行业的关注存在向。3年3月,计算机、通信、传媒等成长类行业关注度较高,个股平均被报道次高于市场均值相较之下综合消费者服务电力及公共事业纺织服装等行业关注偏低。行业新闻报道数量的变迁也反映了市场关注点的变化。比如,2年6月汽车、钢铁以及煤炭行业关注度处于市场前列,但是到了今年3月下滑到中游水平。相比之下通信、计算机以及传媒等行业在今年增幅较大,成为当前的市场热点。图:2年以来每行业度资料来源:wind,测算情绪指标:指标对收益率具有一定预测能力基于大模型标注的情感结果构建情绪指标情绪指标反映的是媒体分析师以及管理层对于上市公司的情绪并且通过汇总行业内个股情绪可以得到整个行业的情绪值首先获得大模型对相关文本中每个句子的情感判断后采用线性衰减加权方法构建个股情绪标,之后聚集个股得到行业情绪指标,具体步骤如下:) 首先,对于每个入库日𝑡,使用微调后的大模型分别预测财经新闻、分析师研报以及公司公告的情感的得分,每个文本的情感得分区间为-,];) 通过等权求和方式,计算上市公司每日𝑡情感得分𝑐𝑟𝑡。其中,𝑐𝑟𝑡最大值为说明当日所有研究对象都是正面情绪如果𝑐𝑟𝑡为-则都是负面情绪;构建公司情绪指标,计算上市公司过去𝑛天的情感得分,通过线性衰减加权求方式得到(越靠近当日得分权重越大;构建行业情绪指标,采用同样的行业关注度计算方式得到行业情绪指标。图:上市公司绪指构建意图 资料来源:我们统计2年以来个股和行业层面的情绪指标。结果显示,每月情绪前十个股排名变动较大并且前十大个股市值分布较分散行业层面通信石油石化传媒食品饮料、计算机行业情绪较好,相较之下,农林牧渔、电力设备新能源、轻工制造、银行、汽车等行业情绪偏弱。表:2年以来月绪t0上市公司op1op2op3op4op5op6op7op8op9op捷捷微电江铃汽车陕鼓动力国芯科技亚信安全中原传媒永顺生物海宁皮城惠泰医疗掌阅科技德源药业红日药业皓元医药锦浪科技时代新材桂林旅游平煤股份兆威机电吉比特远兴能源柳药集团贝因美中金岭南富临精工维力医疗匠心家居盖世食品艾为电子天宜上佳创业慧康凯添燃气川仪股份天润乳业广大特材安徽凤凰江中药业爱建集团聚辰股份同享科技南侨食品北方稀土连城数控新益昌凯莱英盛天网络奇正藏药招商证券兰剑智能凯赛生物永贵电器英搏尔华铁应急海汽集团南京银行禾川科技飞科电器中欣氟材创远信科沃顿科技斯莱克锦江B股大金重工派特尔震裕科技家联科技中国电影万凯新材新风光国检集团七一二长白山深科技新风光隆华新材方大特钢浙能电力捷邦科技海兴电力中油工程东方国信op1op2op3op4op5op6op7op8op9op重庆建工硅宝科技美格智能哈铁科技怡和嘉业玉禾田奥普家居利元亨南网科技顺网科技江铃汽车永顺泰飞力达海洋王万凯新材鼎泰高科川环科技同力日升中信海直华林证券扬杰科技北京城乡联特科技仕净科技厦门象屿贵州轮胎诺力股份三人行大悦城网达软件瑞奇智造珠城科技万马科技福斯达英方软件萤石网络鑫磊股份合肥高科正海生物洪都航空佐力药业龙迅股份坤泰股份惠丰钻石路维光电三特索道风神股份力合科创沧州大化联化科技宝地矿业上海建科润普食品海源复材凌玮科技联合水务富淼科技必创科技纳睿雷达新澳股份南化股份C光大同星帅尔南矿集团中科磁业雅达股份C恒尚军信股份科拓生物中国卫通资料来:in,朝阳永续,图:2年以来每行业指标(剔除合、合金)资料来源:wind,朝阳永续,测算情绪指标与基本面具有一定关联性且情绪较好的个股未来短期内能有超额收益据各公司Q3情绪值进行分组,并统计各组Q3的RO、营收增速、归母净利润增速均值从结果来看情绪居前的分组财务状况普遍较优公司质地较为优良另外我们在3年-2月分别计算回看1天3天5天0天情绪正向个股在未来3个5个0个0个0个交易日内的平均收益率,结果显示大多数能超过上证指数。表:13不同情个股组基本面标对比O()营业收入同比增速()归母净利润同比增速()情绪取值前个股.6.8.1情绪取值前个股.4.2.8情绪取值前个股.0.0.3情绪取值后个股.7.7.9情绪取值后个股.3.3.9资料来源:wind,朝阳永续,测算图:情绪正向股在来的均超额益情况资料来源:wind,朝阳永续,测算,注:超额收益的计算基准为上证指数分歧指标:基于情绪方差构建行业分歧度,指标与股票振幅相关联基于情绪方差构建行业分歧度由于部分冷门个股关注度较低难以统计个股市场分歧度目前我们只计算行业层面的市场分期指数首先根据大模型计算出的文本情感得分,之后,统计一段时间内行业所有文本情感得分的标准差来构建行业的市场分歧指标。图:行业市场歧指构建意图资料来源:从回溯结果来看,行业分歧度与价格振幅大小走势具有关联性。根据回测结果,-1至-0构建的各行业分歧度与价格振幅的相关系数为指标与价格波动具有一定关联性另外行业市场分歧度在一定程度上也反映行业的活跃程度预示未来价格可能会有所波动一般来说行业处于低位时分歧度大则未来可能存在价格涨的机会;而行业处于高位时,分歧度大则预示着未来存在价格下跌的风险。图:2年以来每行业度指标已剔综合综合融)资料来源:wind,朝阳永续,测算图:计算机行月度幅s行业市场歧度 图:电力设备新能行业度振幅s行业市分歧度.0.0.0.0.0.0.0.0
中信计算行业度振(单:)计算机业分度(一化,轴
.8.7.6.5.4.3.2.1//1/2/3/4/5/6/7/8/9/0/1/2/1/2/3
.0.0.0.0.0.0.0
中信电新业月振幅单位)电新行分歧(归化后右
.21.8.6.4.2//1/2/3/4/5/6/7/8/9/0/1/2/1/2/3资料来源:wind,测算 资料来源:wind,测算图:煤炭行业度幅s行市场分度 图:石油石化业月振幅s行业市分歧度 中信煤炭业月振幅单位)煤炭行分歧(归化后右654321//1/2/3/4/5/6/7/8/9/0/1/2/1/2/3
.9.8.7.6.5.4.3.2.10
.53.52.51.50
中信石油化行月度幅(位:)石油石行业歧度归一后右轴
.9.8.7.6.5.4.3.2.1//1/2/3/4/5/6/7/8/9/0/1/2/1/2/3资料来源:wind,测算 资料来源:wind,测算▍基于大模型文本情绪指标的投资策略构建选股策略:情绪指标具有较强超额收益能力,可提供文本增量lpha从前文的统计来看大模型预测情绪越高的股票其投资价值相对来讲也就越高所以可以通过持有情绪最好的个股来获取超额收益按照这个思路我们构建了定期选股策略具体做法为固定调仓时间并以调仓频率计算过去一段时间内的情感指标对股票进行排序持有情感最好的几支股票,构建方式如下:) 样本空间全A股中剔除TT股票以及每个截面期下一交易日停牌的股票;) 回测区间:8年1月1日至3年3月1日;) 月度调仓:每个月最后一个交易日计算个股情绪得分并进行排名,构建N股组合,并在下一交易内等权买入组合内个股,暂时不考虑换手费用。为了对比研报情感指标和传统分析师指标我们用类似的方法构建了分析师研报评指标根据朝阳永续整理的研报评级进行个股打分取值如下图表所示之后按照情绪标构建方式构造分析师评价指标。表:朝阳永续报
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年完善版股权激励协议书
- 2025年生态修复与保护项目合同管理台账
- 2025年产权式写字楼出租合同模板
- 2025年质谱仪销售合同
- 2025年交通工程项目合同工程款支付协议
- 2025年卷烟分销商业合作合同
- 2025年业务委托合同标准文本(电子版)
- 2025年亲属间房产互换合同
- 2025年企业电脑维护合作合同
- 2025年公共空间装修合同详单
- 稿件修改说明(模板)
- 医学约束带的使用课件
- 传染病防控工作职能部门间协调机制及流程
- 社会团体法定代表人登记表
- 中小学心理健康教育教师技能培训专题方案
- (完整版)50028-城镇燃气设计规范
- 2020年常见肿瘤AJCC分期手册第八版(中文版)
- 五年级下册生命、生态、安全教案
- 原发性肺癌手术临床路径(最全版)
- 建筑工程施工质量验收规范检验批填写全套表格+示范填写及说明
- 刺五加种植加工项目可行性研究报告写作范文
评论
0/150
提交评论