




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内容目录一、另类数据情感分析的新方法 5二、金融论坛评论的数据特征 5数据来源 5什么是LKM(LargeKnowledgeModel) 5论坛的主帖和评论的区别 7三、大语言开源模型落地 8利用大语言模型进行情感分析 8大模型强大的语言理解和更好的泛化能力 8GPT情感分析效果最佳,但成本过于高昂 9本地化部署的开源模型 9开源模型 9ChatGLM与FinGPT 10四、情绪打分体系构建 11因子测试方法 12为什么要选择金融论坛评论数据 12大模型舆情情感因子 13因子相关性与因子收益 15五、大模型金融论坛舆情增强略 16策略构建 16策略表现 16六、总结 18七、附录 18FinGPT的推理代码样例 18推演的算力需求与微调的算力需求 18模型输入的“参数敏感性” 19风险提示 21图表目录图表1:LKM知识模型的核心 5图表2:大知识模型的模型构建流程 6图表3:LKM的情感打分优势 6图表4:LLM与的推导区别 7图表5:人工智能的发展周期 7图表6:金融论坛主帖与评论的区别 8图表7:自回归语言模型的输出步骤 9图表8:HELM大语言模型情感分析排行榜 9图表9:ChatGPT情感分析得分比较 9图表10:ChatGPTAPI调用价格 9图表11:开源LLM时间线 10图表12:ChatGLM的英文能力 10图表13:ChatGLM的中文能力 10图表14:FinGPT架构 11图表15:FinGPT在情感打分任务上表现优异 11图表16:国金金工股票情感打分体系 12图表17:主帖内容示例 12图表18:金融论坛评论的不同类型样例 12图表19:主帖与评论相同构造情感因子的IC测试统计指标 13图表20:评论数量分布 13图表21:评论数最多的20只股票 13图表22:评论的FinGPT情感打分分布 13图表23:评论的LKM情感打分分布 13图表24:大模型舆情情感因子含义与计算 14图表25:大模型舆情情感因子IC测试统计结果 14图表26:乐观情感和因子分位数组合测试统计指标 15图表27:乐观情感和因子分位数组合年化收益率 15图表28:乐观情感和因子分位数组合净值曲线 15图表29:大模型舆情情感因子与大类因子相关性 15图表30:情感因子与市值因子相关性 16图表31:常见基本面与技术因子的IC测试 16图表32:大模型金融论坛舆情增强策略条件设置 16图表33:大模型金融论坛舆情增强策略指标 17图表34:大模型金融论坛舆情增强策略分年度收益 17图表35:大模型金融论坛舆情增强策略净值曲线 17图表36:FinGPT的推理demo 18图表37:大语言模型训练的硬件与训练时间 19图表38:没有任何input结的LLaMA2输出 19图表39:Alpaca-input结构下的输出 19图表40:财联社新闻标题 20图表41:不同提示词 20图表42:不同提示词下博迁新材新闻的情感分析 20图表43:不同提示词下酱香咖啡新闻的情感分析 21情感分析是自然语言处理(NLP)NLP我们从多个学术假设和结论拆解了情绪对股票价格产生影响的背后逻辑:情绪与决策制定:投资者在决定买卖股票时,除了基于对公司基本面和技术分析的认知,AlphaFinGPT数据来源2018LKMVAILKM图表1:LKM知识模型的核心来源:子长科技,什么是KM(LargeKnowledgeModel)对于金融论坛评论数据而言,自然语言处理的难点之一在于如何确认股票与评论之间的联LKM图表2:大知识模型的模型构建流程来源:子长科技,从技术路线上来说,LKM属于决策智能,LLM属于生成型人工智能。生成型人工智能(GenerativeAI)主要用于生成新的、未见过的数据或内容,如图像、文本或音乐。它的核心目标是学习和模拟特定数据集的分布。其可以进行创作(例如画作、音乐、文本、代码、数据增强、模拟和虚拟现实内容生成等。常见的技术包括生成对抗(GANs(VAEsTransforme(ChatGPT。决策智能(DecisionIntelligence)是一个跨学科的领域,目标是帮助组织或个人做出更图表3:LKM的情感打分优势来源:子长科技,在另类数据情感打分能力上,LLM与LKM各有优劣,LLM解释性差但是拥有令人惊讶的0图表4:LLM与LKM的推导区别来源:子长科技,图表5:人工智能的发展周期来源:Gartner,子长科技,论坛的主帖和评论的区别金融论坛的数据主要可以分为两种类型,主帖和评论。两者数据主要有以下共同特征:随事件波动:特定的金融事件或新闻可能引发大量的帖子和情感反应,如股市大涨或大跌、受到特定类型评论影响:有些评论和主帖可能出于特定的目的,例如推广某个股票、产品或服务,或试图影响其他投资者的观点和决策。20181120236301300480300260(基于论坛规则,部分客户端的评论会直接显示为主帖。主帖和评论的测试区别我们将4图表6:金融论坛主帖与评论的区别来源:子长科技,利用大语言模型进行情感分析大模型强大的语言理解和更好的泛化能力大语言模型(LLM)经过预训练,具备了出色的语言理解和生成能力。它能够分析句子的语法结构,理解上下文的语义,以及生成合乎语义逻辑的文本。在情感分析任务中,LLMNLPBERT图表7:自回归语言模型的输出步骤 图表8:HELM大语言模型情感分析排行榜来源:Borealisai, 来源:HELM,注:大部分大语言模型,包括GPT所有系列,均是自回归语言模型。GPT情感分析效果最佳,但成本过于高昂ChatGPTBERTGPTAPIChatGPT1000token7501ChatGPT图表9:ChatGPT情感分析得分比较 图表10:ChatGPTAPI调用价格InputOutputTrainingModels(price/1k(price/1k(price/1ktokens)tokens)tokens)GPT-48Kcontext$0.03$0.06-GPT-432Kcontext$0.06$0.12-GPT-3.5Turbo4Kcontext$0.001$0.002-GPT-3.5Turbo16Kcontext$0.003$0.004-babbage-002$0.0016$0.0016$0.0004davinci-002$0.012$0.012$0.006Fine-tuningGPT-3.5Turbo$0.012$0.016$0.008来源:Wang,Zengzhi,etal.《IsChatGPTagoodsentimentanalyzer?Apreliminarystudy.》,
来源:OpenAI,本地化部署的开源模型开源模型开源大语言模型是由研究机构或社区开发的自然语言处理模型,通常在开源许可下提供,LLMAlpaca、LLaMa、ChatGLM图表11:开源LLM时间线来源:Zhao,WayneXin,etal.《Asurveyoflargelanguagemodels.》,ChatGLM与FinGPTChatGLM(KnowledgeEngineeringGroup(KEG)&DataMiningatTsinghuaUniversity)ChatGLMGLM-130B(SupervisedFine-Tuning)等技术实现人类意图对齐。ChatGLM2-6B1:11TtokenRTX2080Ti图表12:ChatGLM的英文能力 图表13:ChatGLM的中文能力来源:ChatGLM, 来源:ChatGLM,FinGPTAI4Finance-FoundationChatGLM-6BLoRA数据源层:该层确保全面的市场覆盖,通过实时信息捕获解决金融数据的时间敏感性。NLPLLMsLoRAFinGPT图表14:FinGPT架构来源:Yang,Hongyang,Xiao-YangLiu,andChristinaDanWang.《FinGPT:Open-SourceFinancialLargeLanguageModels》,FinNLPYahooSeekingAlphaFinnHubFMP、Eastmoney(东YicaiCCTVTushareChatGLM-6BFinGPTFPB、FiQASA、TFNSNWGI76772FinGPT图表15:FinGPT在情感打分任务上表现优异数据集模型得分BloombergGPTChatGPT3.5GPT-4ChatGLM2FinGPTLlama2FPB[1]0.5110.7810.8330.3810.8550.39FiQA-SA[2]0.7510.730.630.790.850.8TFNS[3]-0.7360.8080.1890.8750.296NWGI[4]---0.4490.6420.503来源:FinGPT,注:[1]Financial_Phrasebank(FPB)[2]FiQASA[3]Twitter(TFNS)是一个英语数据集,包含带注释的金融相关推文语料库。[4]NewsWithGPT(NWGI)ChatGPT基于金融论坛评论数据结构和大语言模型的情感打分方法我们构建了一套完整的情绪打分体系,通过深入了解市场的微观情感动态,助力我们捕捉更多市场机会。图表16:国金金工股票情感打分体系来源:因子测试方法ICICRank𝑋𝑡,𝑚表示因子取值,𝑟𝑡+1,𝑚表示下一期股票的收益率。IC的绝对值越高,因子的下期收益率的预测能力越强。图表17:主帖内容示例
𝑅𝑎𝑛𝑘𝐼𝐶𝑡=𝑐𝑜𝑟𝑟(𝑅𝑎𝑛𝑘(𝑋𝑡,𝑚),𝑅𝑎𝑛𝑘(𝑟𝑡+1,𝑚))4TopBottomTopBottom(L-S2018112023630为什么要选择金融论坛评论数据LKM64,65,容上的大量新闻和事件描述与投资者情感关系不大。发表时间 主帖内容2022/1/288:45 20221271328.038.482022/1/138:45 20221121605.3218.682022/1/187:46 011772.546417.13来源:子长科技,而金融评论中虽然也存在新闻和事件描述,但是其比例远低于主帖,更多的评论集中在行情的讨论和观点的输出上。图表18:金融论坛评论的不同类型样例评论发布时间 类型 内容 FinGPT打分 LKM打分2018/1/2411:37无关评论世界上没有什么是一瓶茅台解决不了的,如果有---那就两瓶。0-0.0242018/1/3112:14市场分析104001060026就是一批批资金进进出出股价上涨!!!懂吗?10.42018/1/1819:24情绪表达茅台涨高自然有人卖出,卖出跌低了自然有人买进,抖落浮尘,轻装上阵,浮尘抖落过后一马绝尘向上挺进,茅台,加油!!!10.12来源:子长科技300LKMLKM图表19:主帖与评论相同构造情感因子的IC测试统计指标因子平均值因子平均值标准差最小值最大值t统计量平均股票数ICLKM情感分数和_主帖1.7611.05-30.9524.160.161.30249LKM情感分数和_评论2.6413.38-30.2332.130.201.60251来源:子长科技,Wind,国金证券研究所FinGPT1、中性(0、悲观(-图表20:评论数量分布 图表21:评论数最多的20只股票0
评论数量 当月沪深300涨跌幅绝对值(右轴)
16.00%14.00%12.00%10.00%8.00%6.00%4.00%2.00%0.00%
353025股评票20评论数(15万)105贵州茅台贵州茅台五粮液上国轩高科2018/1/5 2019/1/5 2020/1/5 2021/1/5 2022/1/5 2023/1/5来源:子长科技 来源:子长科技整体看打分后有53的评论的情感是中性的,35的情感是乐观的,12的情感是悲观的。图表22:评论的FinGPT情感打分分布 图表23:评论的LKM情感打分分布中性53%悲观36%中性53%悲观36%64%悲观12%乐观35%来源:子长科技,FinGPT, 来源:子长科技,大模型舆情情感因子FinGPTFinGPT“Whatisthesentimentofthisnews?Pleasechooseananswerfrom{negative/neutral/positive}”(提示词的敏感性讨论请见附录positive0,negative-1。代表评论具体的情感分值。图表24:大模型舆情情感因子含义与计算因子表示 因子含义 计算公式𝑇M(S,T) 金融论坛评论区对具体股票讨论的情感分数总和 M(S,T)=∑𝑆𝑐𝑜𝑟𝑒𝑡𝑇−1M(S,T)M_mean(S,T) 金融论坛评论区对具体股票讨论的情感分数的平均值 M(S,T)𝑚𝑒𝑎𝑛=C(S,𝑇M_positive(S,T) 金融论坛评论区对具体股票讨论的乐观情感分数总和 M(S,T)𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒=∑𝑆𝑐𝑜𝑟𝑒𝑡,𝑆𝑐𝑜𝑟𝑒𝑡>0𝑇−1𝑇M_negative(S,T) 金融论坛评论区对具体股票讨论的悲观情感分数总和 =∑𝑆𝑐𝑜𝑟𝑒𝑡,𝑆𝑐𝑜𝑟𝑒𝑡<0𝑇−1M(S,T)𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒M_posdneg(S,T) 具体股票讨论的乐观情感分数总和除以悲观情感分数总和 M(S,T)posdneg=M(S,T)𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒Corr(S,T) 评价周期(每月)
𝐶𝑜𝑟𝑟(𝑆,𝑇)=𝑐𝑜𝑟𝑟(𝑅𝑎𝑛𝑘(𝑆𝑐𝑜𝑟𝑒𝑆,𝑡),𝑅𝑎𝑛𝑘(𝑡))T−1<t<T来源:IC300池中2018年1月以来单因子测试IC达到3已经能超过80的基IC为3.65,t统计量为2.58,结果显著。结果共同表明股票情感越乐观情况下股票更容易取得超额收益。图表25:大模型舆情情感因子IC测试统计结果ICM_mean(S,T)情感平均0.309.34-24.3727.790.030.26249M_posdneg(S,T)情感分歧-0.90ICM_mean(S,T)情感平均0.309.34-24.3727.790.030.26249M_posdneg(S,T)情感分歧-0.9012.41-25.7128.11-0.07-0.59208Corr(S,T)情感变化1.389.36-23.6718.720.151.20208M(S,T)情感和3.0212.60-25.8927.630.241.95249M_negative(S,T)悲观情感和-2.6111.26-28.8725.18-0.23-1.88249M_positive(S,T)乐观情感和3.6511.50-22.1427.250.322.58262
风险调整的
t统计量平均股票数 来源:子长科技,FinGPT从乐观情感和的分位数组合测试结果看,其分位数组合收益单调性良好,多空组合净值增加平稳,分位数组合多空年化收益率达12.71,是有效的选股因子。图表26:乐观情感和因子分位数组合测试统计指标组合总收益率年化收益率波动率夏普比率最大回撤率Top46.947.3619.370.3826.57122.903.8818.650.2128.0824.470.8119.280.0425.01Bottom-25.47-5.2819.26-0.2736.51市场9.671.7218.510.0928.00L-S91.3312.7110.171.2510.90来源:子长科技,FinGPT图表27:乐观情感和因子分位数组合年化收益率 图表28:乐观情感和因子分位数组合净值曲线Top1Top12B6.00%4.00%2.00%0.00%-2.00%-4.00%
10-6.00%
年化收益率 市场收益率
Top组合 Bottom合 市场组合来源:子长科技,FinGPT 来源:子长科技,FinGPT因子相关性与因子收益图表29:大模型舆情情感因子与大类因子相关性0.100.030.020.030.02-0.02-0.090.050.00-0.05-0.10-0.15
-0.12成长 质量 价值 动量 技术 分析师一致预期来源:子长科技,FinGPT0.55。大市值股票(越低超额收益越高,而情感总和因子是降序因子,情感总和因子能够仍然有高分位数组合多空收益恰恰能证明这是情感分析带来的收益。图表30:情感因子与市值因子相关性spearman相关性大模型舆情情感市值大模型舆情情感1.000.55市值0.551来源:子长科技,FinGPT,Wind,国金证券研究所IC3.65ICICIC80的基本面因子。图表31:常见基本面与技术因子的IC测试因子含义平均值因子含义平均值标准差最小值最大值t统计量ICDP_LTM现金红利4.3123.30-40.7851.620.181.50M_positive(S,T)舆情情感3.6511.50-22.1427.250.322.58FCFP_TTM公司自由现金流3.3811.02-19.3326.280.312.49Price_Chg20D20日价格变动-3.3317.17-38.4432.75-0.19-1.57Volatility_60D60日波动率-3.8323.56-43.4348.61-0.16-1.32Turnover_Mean_240D240日换手率均值-3.8521.49-45.2440.55-0.18-1.45Volatility_240D240日波动率-4.1325.12-52.9044.89-0.16-1.33Turnover_Mean_20D20日换手率均值-5.3921.41-43.3250.94-0.25-2.05来源:子长科技,FinGPT,Wind,国金证券研究所策略构建20的股票等权构造策略组合。图表32:大模型金融论坛舆情增强策略条件设置条件 设置股票池 沪深300成分股构建方式 等权回测频率 月频调仓时点 每月最后一个交易日回测区间 2018年1月1日至2023年6月30日单边手续费 千分之三来源:策略表现从策略指标上看,在千分之三的手续费下策略年化收益率高达6.69,夏普比率为0.32,8.02,1.58,6.94。图表33:大模型金融论坛舆情增强策略指标指标策略沪深300指数基准年化收益率6.69-0.32年化波动率20.6619.69夏普比率0.32-0.02最大回撤33.2139.59双边换手率(月度)43.45-年化超额收益率8.02-跟踪误差5.32-信息比率1.58-超额最大回撤6.94-来源:子长科技,FinGPT,Wind,国金证券研究所300图表34:大模型金融论坛舆情增强策略分年度收益50.00%220222028201120230.00%20.00%10.00%
2019
2020
2023-20.00%-30.00%
策略收益 基准收益来源:子长科技,FinGPT6.94。金融论坛评论确实带来了额外增量信息。图表35:大模型金融论坛舆情增强策略净值曲线2102018/1/1 2019/1/1 2020/1/1 2021/1/1 2022/1/1 2023/1/1策略多头净值 超额净值 基准净值来源:子长科技,FinGPT另类数据情感分析因子与传统的因子之间的相关性低,他们捕获到的是市场上的不同信息来源或不同的市场动态。考虑到另类数据情感分析因子与传统因子之间的低相关性,投资者有理由关注这种新型的情感打分方法策略,以提高整体策略的稳定性。FinGPT根据情感打分体系,我们构建了大模型金融论坛舆情增强策略,策略的年化超额收益率为,信息比率为1.58。金融论坛评论确实带来了额外增量信。FinGPT的推理代码样例加载模型参数后,使用FinGPT进行情感打分的代码样例如下:图表36:FinGPT的推理demo来源:财联社,FinGPT,推演的算力需求与微调的算力需求全调模型是困难的,算力要求极高,成本高昂,不仅仅需要考虑参数调整,也需要考虑训练数据本身的偏离和标注质量,可能会出现更多训练但是更差效果的结果。图表37:大语言模型训练的硬件与训练时间来源:Zhao,WayneXin,etal.《Asurveyoflargelanguagemodels.》,FinGPTV38A100显卡的支持下,7216B4090模型输入的“参数敏感性”LLMtokenLLM解决随机性问题的方法包括:固定随机种子:在生成文本或进行情感分析前,固定随机种子可以确保结果一致性。多次采样与投票:多次运行模型,然后进行多数投票,以提高鲁棒性。调整温度(超参数:在文本生成中,调整温度参数可以影响输出的随机性。(提示词不同LLaMA2图表38:没有任何input结构的LLaMA2输出 图39:Alpaca-input结构下的LLaMA2输出来源:LLaMA2, 来源:LLaMA2,FinGPTWhatisthesentimentofthisnews?Pleasechooseananswerfrom{negative/neutral/positiveFinGPT图表40:财联社新闻标题新闻简称新闻与评论内容博迁新材博迁新材:定增申请获证监会同意注册批复财联社9月4日电,博迁新材公告,向特定对象发行股票申请获得中国证监会同意注册批复。酱香咖啡今天的咖啡是酱香味的!茅台联名瑞幸刷屏有门店“奶油用光了”来源:财联社,图表41:不同提示词提示词缩写具体提示词要求对情绪具体打分Pleaseperformasentimentanalysisonthefollowingcontentandprovideascore.Thescoreshouldrangefrom-1to1,with-1representingaverynegativesentiment,0foraneutralsentiment,and1foraverypositivesentiment.Trytodistinguishthescoresfordifferentnewsitemsasmuchaspossible.Onlygiveonescore.Pleaseprovidethescorewithdecimalprecision.部分词汇调整Whatisthesentimentofthismessage?Pleaseselectthefollowinganswer:{negative/neutral/positive}原始Whatisthesentimentofthisnews?Pleasechooseananswerfrom{negative/neutral/positive}原始-中文这条新闻的情感是什么?请选择下列答案:{消极/中性/积极}要求对情绪具体打分-中文请对以下内容进行情感分析并打分。得分范围从-1到1,-1代表非常消极的情绪,0代表中立的情绪,1代表非常积极的情绪。尽量区分不同内容的得分,结果只给一个分数。部分词汇调整-中文这条消息的情感是什么?请选择下列答案:{消极/中性/积极}来源:提示词输入内容提示词输入内容输出结果部分词汇调整-中文博迁新材积极。原始-中文博迁新材积极(positive)部分词汇调整博迁新材positive原始博迁新材positive要求对情绪具体打分-中文博迁新材I.Negative(1-10):8/10Thiscontentsuggestsapositivedevelopmentforthecompany,astheapplicationforastockofferinghasbeenapprovedbytheChineseSecuritiesregulator.However,thefactthattheapplicationwasgrantedapprovalmaybeseenasreliefforsomeinvestors,asitindicatesthatthecompanyhasreceivednecessaryapprovalstoproceedwithitscapital-raisingplans.Therefore,Iassignascoreof8outof10tothiscontent.要求对情绪具体打分博迁新材Iwillgiveascoreof1forthisnewsitem.Thenewsitemdescribesacompanycalled"BoyanNewMaterial"anditsSecuritiesregulator.Basedontheinformationprovided,itappearsthatcompanyhasreceivedapprovalfromtheregulatortoissuenewstock.Thescoreisbasedonthefactthatthenewsitemcontainsinfor
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绿化建设专项合同
- 纸质运动装备市场细分与产品设计原则探讨考核试卷
- 短期医药代表合同
- 民国路灯美术课件
- 眼镜行业互联网+发展趋势考核试卷
- 农用机械化农业气象服务与农业风险管理策略研究考核试卷
- 毛皮制品包装设计考核试卷
- 玉米种植的农业电商发展考核试卷
- 粮食仓储企业绿色经济产业链构建考核试卷
- 海面风速预测考核试卷
- GB/T 43953-2024全生物降解聚乙醇酸(PGA)
- 国家八年级数学质量测试题(六套)
- 青光眼小梁切除手术
- (2024年)肺栓塞课件
- 2024吉林省民航机场集团有限公司招聘笔试参考题库附带答案详解
- 电磁现象及其应用-理解电磁现象及其在日常生活中的应用
- 车辆行驶安全培训模板
- 开展中医药健康文化宣传活动方案(样式)
- 油漆涂料行业市场分析
- 跨境数据流动与治理
- 输血治疗知情同意书
评论
0/150
提交评论