科技行业:Llama 2升级迭代效果显著有望加速应用端落地_第1页
科技行业:Llama 2升级迭代效果显著有望加速应用端落地_第2页
科技行业:Llama 2升级迭代效果显著有望加速应用端落地_第3页
科技行业:Llama 2升级迭代效果显著有望加速应用端落地_第4页
科技行业:Llama 2升级迭代效果显著有望加速应用端落地_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信|证券研究报告|地22023.7.30:闻学臣LlamaBGPT.5和PaLM-540B12023年7月19日,Meta发布了Llama2开源预训练大模型。该模型是Llama1的更新版本,在公开可用的数据集上进行训练。与LLaMA相比,预训练语料库的大小增大约40%,达到了2.0T。同时模型的上下文长度增加到了4ktokens,并采用了分组查询注意力机制(GQA,grouped-queryattention)。1Llama2有7B、13B、34B和70B的四个版本,在多项基准测试中表现优异。特别是在阅读理解和常识推理方面,70亿参数规模的Llama2预训练模型的表现已经可以与当前顶尖的预训练语言模型GPT-3.5和PaLM-540B相媲美。亿参数规模的变体。相比Llama1,训练数据量达到2万亿tokens称规模分组查询注意力分组查询注意力GQA训练TokensLearningRate65B2kkk××××××1.4万亿2万亿2万亿1.5E-470Bk4k√√1.5E-42集包含2万亿tokens,英语语料占比近90%1Llama2的预训练过程持续约4个月,主要在Meta自建的AI研究超级计算集群(RSC)和内部生产集群上完成。所有模型训练总耗时约330万GPU小时。1Llama2使用来自公开数据源的预训练数据,总计2万亿tokens,其中不包含任何Meta用户数据。预训练数据主要以英语为主,占比近90%,代码占比约8.4%,其次是德语、法语等其他语言的语料数据。00ffr0.16%英语训练数据占英语训练数据占比89.70%。Unknown主要指代码数据,占比8.38%。jafi3Llama2-Chat:基于预训练模型,采用RLHF和PPO等方法微调的对话模型1要将Llama2应用于实际对话场景,仅仅预训练是不够的,需要使用人类反馈进行进一步微调来优化模型的有用性和安全性。Llama2-Chat正是通过一系列微调方法进行优化得到的专门面向对话的语言模型。1Llama2-Chat通过应用监督微调(SFT)创建了Llama2-Chat的初始版本。随后,该模型使用基于人类反馈的强化学习(RLHF)方法进行迭代优化,主要有拒绝采样(RejectionSampling,RS)和近端策略优化(ProximalPolicytionPPOStep3:人类反馈训练安全 (Safety)和可用 (Helpfulness)奖励模型Step4:运用安全和可用奖励模型进行RLHF,包含拒绝采样和近端策略优化过程Step5:得到Llama-2-Chat最终版本Step1:预训练得到Llama2模型Step2:SFO得到Llama-2-chat初始版本资料来源:Llama2:OpenFoundationandFine-TunedChatModels、中泰证券研究所4监督微调(SFT):少量高质量数据可以更快地提升模型质量1Meta发现SFT的数据质量非常重要,但第三方SFT的数据的多样性和质量都不够高。因此Meta进行了信息收集,一共收集了27540个注释(annotation),并在其中排除了Meta用户的数据信息。1Llama2-Chat进行了两次有监督的微调。在微调过程中,每个样本都包括一个提示和一个回答。为了确保模型序列长度被正确填充,Meta将训练集中的所有提示和答案连接起来,并使用一个特殊的token来分隔提示和答案。Helpfulness:根据提示给出相应的答案的能力Safety:拒绝不合理或存在人身攻击的请求的能力通过高质量的输入和输出数据来达到Llama2-Chat期望生成的数据55运用RLHF提升对话能力,训练了安全性和可用性两个奖励模型1在监督微调后的基础上,研究人员使用了基于人类反馈的强化学习RLHF进一步优化Llama2-Chat:1)收集超过100万个人类偏好反馈样本,让标注者对模型生成的不同回复进行比较和选择,得到他们的偏好判断。2)使用这些偏好数据训练专门的有用性奖励模型和安全性奖励模型,以自动评估对话回复的质量。3)使用PPO和拒绝抽样等强化学习算法,让语言模型在这些奖励模型的指导下逐步逼近人类的偏好。1Meta分别训练了安全性和有用性两个奖励模型。在基于Llama2-Chat收集的内部测试集上表现最佳,其中有用性奖励模型在元有用性(MegaHelpful)测试集上表现最佳。同样,安全性奖励模型在Meta的测试集上表现最佳。总体而言,这两个奖励模型优于包括GPT-4在内的所有模型。MetaHelpfulMetaSafetyAnthropicHelpfulAnthropicHarmlessOpenAISumm.StanfordSHPAvgSteamSHP-XL3.8OpenAssistantGPT-4SafetyRM64.574.7HelpfulnessRM63.272.075.580.070.66Helpness人工评估:以显著优势优于开源模型,Llama2-Chat70B与GPT-3.5相媲美1人工评估通常被认为是评判自然语言生成模型的黄金标准。Meta利用4000+个单次和多次的输入来比较开源模型和闭源模型的实用性和安全性。通过输入内容(事实内容、写作和内容生成、语言帮助、建议以及对话)产生输出内容,并人工判断两个模型输出的优劣性。1Llama2-Chat模型在单回合和多回合中都以显著优势优于其他开源模型。Llama2-Chat70B模型以60%+的胜率优于MPT-7B-chat。Llama2-Chat34B模型在与同等规模的Vicuna33B和Falcon40B模型的比较中具有超过75%的整体胜率。1Llama2-Chat70B模型与ChatGPT相媲美。与GPT-3.5的竞争中,Llama2-Chat70B模型的胜率为36%,平局率为%。Llama2-Chat70B模型以很大比例的胜率优于PaLM-Bison模型。nFoundationandFineTunedChatModelsSafety人工评估:安全性优于所有开源模型甚至是GPT-3.5,且在多轮对话中表现突出1Meta根据安全类别收集了约2000条提示,要求评分者对模型进行安全违规判定。这些结果受到受到提示的限制、审查指南的主观性、内容标准以及个别评分者的主观性等影响。1Llama2-Chat的安全性优于所有开源模型甚至是GPT-3.5。Llama2-Chat具有可比或更低的总体违规百分比,而ChatGPT和Falcon紧随其后,然后是MPT和Vicuna。1多轮对话更容易引发不安全反应是模型测试中的普遍现象。尽管如此,与其他模型相比,Llama2-Chat在多轮对话仍然表现良好。Llama2-Chat总体违规百分比约为5%,安全性能更高。Llama2-Chat在多轮对话中的违规百分比低于15%,仍然优于其他模型。FoundationandFineTunedChatModels1Llama270B模型优于MPT、Falcon等开源模型。Meta采用内部评估库,对Llama1、Llama2、MosaicMLPretrainedTransformer(MPT)model以及Falcon进行评估,评测领域有代码、常识推理、世界知识、阅读理解、数学、MMLU(大规模多任务语言理解评测基准)、BBH(BIG-bench的子集,仅包含目前模型表现无法超过人类的任务)和AGIEval(类人能力的基准测试)。SOTA结果均出现在Llama2测试中。ModelSizeCodeCommonsenseReasoningWorldKnowledgeReadingComprehensionMathMMLUBBHAGIEval1.9.92.8.60B.2.9Llama133B.7.5.6.9.313BLlama2.1.470B37.571.963.669.435.268.951.254.2FoundationandFineTunedChatModels预训练模型评估:编程能力和算术能力突出TFalcon1常识推理:在HellaSwag、WinoGrande和CommonsenseQA等常识推理测试中,Llama2在部分任务上强于Llama1,在全部任务上优于MPT和Falcon。算术推理测试比较结果dChatModels1世界知识:在NaturalQuestion和TriviaQA开放域问答测试中,Llama270B的表现优于其他模型,除在NaturalQuestion-0-shot被Faclcon40B超过。1阅读理解:在SQuAD和QUAC阅读理解测试中,Llama2的表现略高于Llama1和MPT,远高于Falcon7B。图表:世界知识测试比较结果图表:阅读理解测试比较结果FineTunedChatModels预训练模型评估:综合表现突出,并在Llama1基础上进步明显1综合表现:在MMLU多任务测试中,Llama2模型优于其他模型,尤其是Llama270B模型的表现遥遥领先其他模型;在AGIEval学科考试评测中,Llama270B在绝大部分学科上都强于其他模型,相比Llama1的结果有显著提升。dChatModelsPaLMGPT距1除开源模型以外,Meta将Llama270B的结果与闭源模型进行比较。Llama270B在MMLU多任务测试和GSM8K数学测试上接近GPT-3.5,但在编码能力上存在显著差距。在TriviaQA和NaturalQuestion开放域问答测试中,Llama2的表现均超过PaLM,拥有接近PaLM-2-L的水准。但在GSM8K数学测试中,Llama2分数仍低于GPT-4和PaLM-2-L。BIGBenchHard(BBH)测试中,Llama2的成绩接近PaLM。Benchmark(shots)GPT-3.5GPT-4PaLMPaLM-2-LLlama2MMLU(5-shot)7086.469.378.368.9TriviaQA(1-shot)––81.486.185NaturalQuestions(1-shot)––29.337.533GSM8K(8-shot)57.19256.580.756.8HumanEval(0-shot)48.16726.2–29.9BIG-BenchHard(3-shot)––52.365.751.2dChatModels议和风险提示1Llama2发布后,能够成为目前最有竞争力的开源模型。目前有部分海内外应用端厂商会选择使用Llama进行精调,再进行有针对性的应用部署。Llama2发布之后,部分厂商可以基于Llama2进行模型精调和部署,能够获得比之前模型更佳的表现结果。对于一些应用端厂商,在进行基础模型迭代后有望大幅提升应用端产品能力。我们认为应当更关注应用端公司,相关应用有望加速落地。1对于大模型而言,提升效果最重要因素依旧是数据质量。Llama2相比Llama1,除了常规扩大预训练的规模之外,最主要的就是对SFT使用的数据进行搜集,没有选择使用第三方的精调数据集。因此我们认为,应当更关注拥有高质量训练数据的模型厂商。1应当更加关注大模型尤其是开源模型的安全性。Llama2模型训练了高质量的安全和可用性奖励模型,对模型的安全效果进行了RLHF约束。近期各国也陆续发布有关生成式人工智能的法律或监管规范。我们认为,在效果之外应当更加关注模型的安全性,重视相关安全应用厂商机会。议和风险提示模型厂商:未来的格局将是基础大模型+行业/场景模型,建议关注科大讯飞、三六零、格灵深瞳、云天励飞、云从科技等;应用场景厂商:任何一轮技术的创新最终都将带来应用的大发展、大繁荣,建议按照下列标准寻找应用机会:1)与AIGC技术相关度更为直接的应用场景,内容的丰富与工具生产力的提升,建议关注金山办公、广联达、万兴科技、中望软件、彩讯股份等;2)高价值、高壁垒、数据量大的垂直场景,如金融、医疗、教育等,建议关注恒生电子、同花顺、明源云、中科软、宇信科技、京北方、长亮科技、顶点软件、创业慧康、嘉和美康、久远银海、卫

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论