




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大语言模型学习目标本章学习目标为:1、了解大语言模型的技术背景2、了解大语言模型的应用场景3、熟悉使用网页以及API调用大语言模型分析金融文本大语言模型的现状大语言在今年来取得了重大发展。以GPT为代表的大语言模型显示出解答数学,法律等问题的能力。这些大语言模型也展现了在编写程序上的能力。早期人工智能的发展过程中,大量与语言相关的工作是由循环神经网络(RNN)以及其改进方案(如长短期记忆模型,即LSTM)来处理的。这些架构在许多语言相关的工作中(例如文本翻译)都有优秀的表现。但是这些架构有很多缺点。最大的问题是训练效率不足,导致无法解析较长的文本。大语言模型的现状在2017年,GoogleBrain团队发表了一篇重要的论文“AttentionisAllYouNeed”。这篇论文提出了Transformer神经网络结构。该架构极大的提高了语言模型的训练效率,让语言模型的复杂度提升成为现实。2018年GoogleAILanguage团队发表了重磅论文“BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding”。该论文介绍了基于Transformer架构的BERT模型并发现该模型在包括文本情绪分析等多项语言工作中能得出特别优良的表现。同年,OpenAI公司也推出了第一代GPT模型。GPT模型的全称是GenerativePre-trainedTransformer,即生成式预训练Transformer。该模型在2019年发展到了第三代,并在2022年发布了一个聊天机器人即ChatGPT(也称GPT3.5)。Chat-GPT的表现得到了广泛关注。在2023年,OpenAI公司发布了GPT4。有研究人员表示该模型具有一定“通用人工智能”的特点。大语言模型的现状领先的大语言模型经常有几千亿,甚至上万亿的模型参数。2024年年初OpenAI推出的GPT4仍然领先。Google公司也推出了旗鼓相当的多模态大语言模型Gemini。顶尖模型的具体模型参数不是公开的信息,因为其具有极高的商业价值。同时也有许多性能上佳的开源模型可供开发者使用。其中具有代表性的就是Mistral公司的一系列模型(包括Mistral7B和Mixtral8x7B)以及Meta公司推出的Llama系列模型(包括7-65B的4个不同大小的模型)。我国大语言模型的发展也十分迅猛。其中的代表者包括京智源研究院推出了悟道模型,百度公司推出的文心一言模型。在本章中,我们也会介绍一款Chat-GLM模型的使用方法作为一个例子。大语言模型的技术背景大语言模型属于Seq2seq(序列到序列)模型。序列到序列模型以一个序列作为输入,进行运算过后再输出一个序列。那么什么是序列呢?简单来说,序列是一系列按照顺序的标记。例如,文本可以用一个序列来进行表示。每一个词语都可以当成一个标记(token)。当然我们需要将词语用向量的方式来表示。同样,输出也是一个向量的序列。如果我们要进行将中文翻译成英文的工作,那么输入是中文的序列,而输出是代表英文单词的序列。如果我们需要完成的是个聊天机器人,那么输入是一个代表问题的序列,而输出则是代表对问题回答的序列。输入序列的长度与输出序列的长度不需要一致。具体输出长度由模型来决定。序列到序列模型:大语言模型的技术背景Transformer模型图16.1是经典论文“AttentionisAllYouNeed”中对于Transformer模型结构的进行解释的图表。这个模型的结构中有两个重要的组成部分,编码器以及解码器。左边的结构为编码器,右边的结构为解码器图16.1:Transformer模型在Transformer模型中,注意力(attention)机制是一个关键组成部分。它用于计算序列中输入向量之间的相关性。在理解语言的应用中,我们用嵌入向量embeddingvector)来代表文本中的词汇。某些词汇可能会影响到与它们距离较远的其他词汇的含义。因此,注意力机制能有效地帮助模型捕捉这些非邻近词汇之间的关系。大语言模型的技术背景虽然之前的机器学习模型也有一定能力处理这些词语之间的关系,但是Transformer模型对这一些问题的处理更为高效。此外,这一机制的计算过程可以通过并行运算来加速,从而使Transformer模型能够有效地处理数据中的长距离依赖关系,实现更快的训练速度,并高效处理更长的序列。在实际应用中,编码器与解码器可以分开使用。BERT模型是由多个编码器构成。而GPT系列模型则是由多个解码器叠加构成。同样谷歌的PaLM模型也是由解码器叠加而成。总体来说,解码器更适合用于生成式模型,因此在各种注重对话或代码生成的场景中,解码器都是主要模型。而编码器更适合从事分类,语言嵌入(类似于之前提到的词嵌入)之类的的工作。大语言模型的技术背景预训练:大语言模型的训练往往采用的是自监督学习方法。或者说,模型会通过文本的上下文来进行学习。在训练BERT模型的时候,研究人员使用了两种训练任务。第一种任务是让模型做填空题。即研究人员在训练时会在文本中随机删除一些词语,并让模型根据上下文来推断删去的词语。另一种训练任务则是让模型推断文本中的下一个句子。GPT的训练任务则是让模型猜测下一个出现的词。这种训练方法的好处是很容易取得丰富的训练数据。我们一旦有丰富的文本那么我们就算不进行人工标记,也能得到大量的训练数据。而大量的训练数据是训练复杂模型的必要前提。大语言模型的训练在接下来的任务中,我们可能需要根据模型需要完成的具体任务对模型进行微调(Fimetuning)。这一部分微调任务往往会输入人工标记的数据,比如在GPT预训练过程结束之后,研究人员会使用人工标记好的问答文本来对模型进行进一步的微调改进。这样微调过后,模型更适合进行对话。表16.1中给出了一个微调数据中的几个数据点。1.在微调数据的输入之前,系统都会输入“你是一个优秀的人工智能助手。你总会提供解释。请用一个五岁小孩的思维来思考。”2.通过这一类微调数据的训练,预训练好的模型会变得更加擅长与人交流。大语言模型的技术背景大语言模型的技术背景InputOutputThisisatestofcommonsense.Completethenextsentence:Amaniswaterskiingwhileholdingontoarope.Heloseshisbalance,fallingandthenregaininghiscomposure.hecontinuestoholdontotheropetightly,smilingandgigglingasheenjoysthefunrideonthewater.Sentence1:Swingabat.Sentence2:Hismoodswings.Multi-choiceproblem:Doesswingmeanthesamethinginthesetwosentences?Optionsare:1).differentmeanings;2).thesamemeaning;Swingmeansdifferentthingsinthesetwosentences,sothecorrectansweris:1).differentmeanings.InSentence1,"swingabat”meanstomovethebatwithyourhandsinafast,curvingmotiontohitsomething,likeaball.InSentence2,"hismoodswings”meansthathismoodchangesquicklyfromonefeelingtoanother,likebeinghappyandthensuddenlybecomingsad.大语言模型的技术背景基于人类反馈的强化学习(ReinforcementLearningwithHumanFeedback):在这一步中,人类将对模型产生的输出进行比较排名,并使用收集到的排名数据构建一个奖励模型。这个模型用于根据人类反馈来量化模型的输出的优劣。接下来可以使用近端策略优化(PPO)这样的强化学习算法,进一步使用这个奖励模型来微调模型。模型有效地学习产生最大化奖励信号的输出,该奖励信号来自人类的排名输入。大语言模型在金融中的应用情绪分析:我们在前一章中讨论过一些重要的金融文本中的信息。例如,文本中所传达的情绪以及不确定性。相较于简单的模型,大语言模型可以更好的理解词汇在文本中所表达的意思。在Loughran和McDonald教授的论文中,他们提出了基于金融市场的词典。他们给的一个具体例子是单词“liability”有多重含义。在一般的语境中liability表达的意思是“累赘”,因此具有较为负面的含义。然而,在金融市场中,liability是一个非常常见的单词,表达的意思是“负债”。因为大部分公司都有一定程度的负债,并且更多的负债不一定说明公司基本面出现问题,因此该词语在金融市场的语境中基本没有表达任何负面情绪。大语言模型有帮助理解词汇语境并给予更准确标记比如,BERT模型可以知道“吃苹果”与“苹果电脑”中的苹果的意思完全不同。因此,在金融市场的运用中,我们可以依赖大语言模型对金融市场中信息披露或新闻的文本中的词汇进行更精确的分类。更进一步,我们可以对词汇的情绪,表达的不确定性,以及我们关心的其他信息进行更好的提取。基于大语言模型的聊天机器人也被发现可以对新闻标题的情绪进行很好的理解。Lira-Lopez和唐跃华教授发现ChatGPT可以通过新闻标题产生的情绪进行分析。通过情绪生成的交易信号可以得到超额收益。李雪君,屠致远及周德馨教授的研究则发现GPT-4具有一定对公司信息披露的文本进行分析,并生成简短的分析报告的能力。金融应用场景大语言模型在金融中的应用文本匹配:例如,在研究中,不同的数据库经常会将略微不同的名字来标注同样的公司或是实体。大语言模型可以帮助我们对相似但不完全一致的字串进行模糊匹配。这样可以极大提高金融研究中的工作效率。由于大语言模型的技术发展方兴未艾,业界和学术界对其在金融方面的应用研究处于起步阶段,具有极大的拓展空间。因此,以上所描述的一些应用场景都只是抛砖引玉。我们希望读者对这一方面进行更深入的探索及尝试。预训练:我们可以考虑在预训练阶段就准备大量金融经济相关的文本。这样,我们训练出来的模型可能对金融经济领域的表现更加优越。但是重新训练一个大语言模型往往需要消耗大量的时间与金钱。因此,我们需要权衡这种方法的利与弊。在最近的学术研究中,Huangetal.(2023)对BERT模型通过金融领域的数据进行微调,并生成出了FinBERT模型。该模型相较于BERT模型来说,对金融领域文本的情绪的解读更为精准。同时,该模型相较于直接从头使用金融数据训练的BERT模型在很多方面表现更为出色。大语言模型在金融中的应用微调:另一种方案是我们对已经训练好的模型进行微调。具体来说,微调是用预训练好的模型的参数进行初始值,用更多的数据对模型的参数进行修改。往往微调中所使用的训练数据是针对某一特定领域或应用场景的。例如,我们可以考虑在微调这一步用金融或经济领域的文本对与训练过的模型进行微调。因为模型已经经过预训练,在微调这一步我们所需的计算量以及训练时间都能得到大大的缩短。原始模型:最后,我们也可以直接使用预训练好的模型(并且没有针对金融经济领域进行微调)。例如,Lira-Lopez和唐跃华教授的研究中,他们直接使用了没有针对金融经济进行微调的ChatGPT,其已经展现出良好的表现。Kellyetal在他们的分析中,也直接使用了许多没有经过微调的大语言模型。然后用这些模型生成的文本嵌入向量对股票回报进行预测,并取得了很好的效果。大语言模型在金融中的应用提示:以ChatGPT为例,我们的输入的问题是模型提示重要的组成部分。许多研究发现使用略微不同的提问可能对模型回答的准确性产生很大的影响。如果我们需要模型在经济或金融领域中取得好的表现,我们可以考虑在提问之前,先对模型进行如下提示“youareanexpertineconomicsandfnance”,即你是经济及金融领域的专家。这样的提示可以唤起模型在经济金融领域的知识。另一种生成有效提示的方法则是直接向模型进行提问。比如,我们可以问GPT:我们需要你对金融文本信息的情绪进行分析。请为我生成十条有用的提示。我们可以对模型生成的提示再进行选择。如果我们用一个普通的大语言模型(如BERT),而不是类似于ChatGPT之类的聊天机器人。那么我们可以将提示加在文本之前。并将提示加正文的信息一并输入模型。这样提示的信息会改变模型对之后正文的分析结果。国产大语言模型我国大语言生态最近也得到了很好的发展。大学,研究机构,以及科技公司都推出了各具特色的大语言模型。例如,百度推出了文心大模型(ERNIE),阿里巴巴推出了DAMO模型。在本章中,我们着重介绍清华大学与智谱AI共同开发的GLM模型。随着人工智能的飞速发展,自然语言处理(NLP)领域的大型语言模型在越来越多的领域展现出了重要的作用。清华大学于2022年推出了GLM大模型,标志着中文语言大模型的重大突破。ChatGLM大模型的独特之处在于它是开源的允许本地部署和行业微调,同时也提供API在线服务,这为开发者提供了更广泛的研究和应用可能性。2022年智谱AI与清华大学发布了双语千亿级超大规模预训练模型GLM-130B,它在斯坦福大学基础模型中心的评测中显示出不弱于GPT-3的性能。基于GLM-130B模型的对话模型ChatGLM-6B通过有监督微调等技术初步实现与人类意图对齐,初具理解人类指令意图的能力,并支持在单张英伟达RIX208OTi图形加速卡上进行推理使用,具备独立部署潜质。智谱AI还推出了认知大模型平台Bigmodel.ai提供智能API服务,旨在将这些技术成果应用于更广泛的领域。GLM模型国产大语言模型——应用场景GLM大模型就属于开源大模型。开源大模型是基于开源软件许可协议发布的大型深度学习模型。通常由研究者、开发者或社区共同开发和维护,并在公开的代码库中提供。优点是可以免费获取和使用,开放的代码使得用户可以自由地查看、修改和定制模型,以适应特定的需求和任务。因此GLM大模型应用主要有:用户直接在网页使用GLM模型产品化功能;用户通过API获取GLM模型在线服务;用户在本地部署GLM系列模型服务并进行私有化定制模型业务。企业用户用于搭建自己的企业大模型,如2023年4月360基于GLM-130B联合研发千亿级大模型“360GLM”。国产大语言模型——实际应用接下来,将用ChatGLM的网页界面来介绍几个简单的应用。在之后的章节中,我们会介绍如何使用ChatGLM的API来处理金融文本。ChatGLM网站:如图16.2所示,用户可以直接通过对话框与GLM大模型对话,获取大模型提供的信息及建议。也可以上传文档,并针对文档内容对大模型提问,大模型可以帮助读者总结文章内容或者翻译文档。图16.2:GLM界面国产大语言模型——实际应用此外,GLM大模型还可以通过编写代码来执行用户的任务,在安全可靠的沙盒环境中执行并展示运行结果。以通过python展示2010年至2022年全球航空业收入变化的折线图为例:如图16.3所示,根据我们的要求,GLM大模型先给出了运行代码。随后在沙盒中运行了这些代码,并展示出运行结果。以上例子我们仅仅通过简单的指令就得到了非常好的效果。例如,金融从业人员需要进行行业研究,并且根据取得的数据创造图标。只要通过简单的文字对话,大语言模型可以直接通过文字资料生成图形,而省去了繁琐的数据录入的工作。从而提升从业人员的工作效率。除了整理数据,生成相应的代码之外,大语言模型还可以在许多其他方面简化我们的工作。国产大语言模型——实际应用图16.3:GLM输出国产大语言模型——使用API进行文本分析在之前章节中,我们使用简单的词典方法来判断文本的情绪。该工作可以通过ChatGLM网页界面进行这一工作。但是,如果我们需要处理大批量数据,使用API接口可能更为方便。导入库zhipuai是智普AI库,我们可以通过这个库来调用ChatGLM的API接口。importzhipuai读取文本数据以及API信息以读取模式打开名为“zhaoshang_short.txt”的文件,读取文件内容并赋值给变量txtwithopen("zhaoshang_short.txt",'r')asf:txt=f.read()国产大语言模型——实际应用请先前往
申请api密钥设置zhipuai库的api密钥,需要替换“yourapikey”为实际的API密钥zhipuai.api_key="yourapikey"使用zhipuai库的model_api对象的sse_invoke方法来调用模型-指定要调用的模型为“chatglm_turbo”-传入一个prompt,它是一个列表,包含了要输入到模型中的数据-设置模型的温度,影响模型的随机性-设置模型输出的top_p值,该值决定了输出的取舍,较高的值倾向于选择更有可能的输出,较低的值则选择更随机的输出-设置模型是否支持增量式输出,如果为True,则可以在不重启模型的情况下连续接收输出response=zhipuai.model_api.sse_invoke(model="chatglm_turbo",prompt=[{“role”:“user”,“content”:f“请判断以下披露文本的情绪。你的回答为正向,负向或是中性。```{txt}'''"}],temperature=0.5,top_p=0.7,incremental=True)国产大语言模型——实际应用遍历模型返回的response中的events-如果事件的event属性为“add”,则打印该事件的数据,结束打印其他内容,直到下一个事件-如果事件的event属性为“error”或者“interrupted”,同样打印该事件的数据,结束打印其他内容直到下一个事件-如果事件的event属性为“finish”,打印该事件的数据以及元数据,结束处理后续事件-对于其他未知的事件类型,直接打印其数据,结束打印其他内容,直到下一个事件foreventinresponse.events():
ifevent.event=="add":print(event.data,end="")elifevent.event=="error"orevent.event=="interrupted":print(event.data,end="")elifevent.event=="finish":print(event.data)print(event.meta,end="")
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025高性能云计算服务合同
- 公司餐饮合同标准文本
- 公司投资合伙合同标准文本
- 公司与销售合同样本
- 2025年上海市正规房屋租赁合同样本
- 公司和物流合同样本
- 乡村土地交换合同样本
- 出售仓库合同标准文本
- 公积金收押合同标准文本
- 提升人事部相关工作的透明度计划
- 汉语词汇与文化课件
- 中医补肾养生课件
- 浅析公路桥梁施工中高性能混凝土的应用
- 新概念英语第三册Lesson8 课件
- DBJ∕T 13-196-2014 水泥净浆材料配合比设计与试验规程
- 江苏省2022年普通高中学业水平选择性考试物理试卷
- 蔬菜抗寒生理课件
- 【岗位管理】保利地产集团职位说明书
- PRS-761-313技术使用说明书
- 铁路建设项目施工企业信用评价办法(铁总建设〔2018〕124号)
- 鸽巢问题(例1、例2)[1]
评论
0/150
提交评论