版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1告计算机华泰研究告计算机华泰研究大模型时代已来,AGI新纪元开启大语言模型(LLM)是在大量数据集上预训练的巨大模型,在处理各种NLP (自然语言处理)任务方面显示出了较大潜力。2017年Transformer编解码器架构问世后,成了今年LLM发展的蓝图,并由此分化出编码器、编解码器和解码器三条进化路径。其中,编解码器和解码器架构目前仍在不断演进中,且解码器架构在数量上占据绝对优势。全球视角看,LLM的典型代表是OpenAI开发的GPT系列模型,国内的百度、智源等也在大模型上进行了深厚的积累。在大模型的赋能下,各种垂类应用和工程实现纷纷落地,包括BloombergGPT、AutoGPT等。LLM或将开启通用人工智能新纪元。溯源:从经典神经网络到Transformer架构深度学习可以概括为特征的抽象和结果的预测。深度学习与神经网络密不可分,主要原因是神经网络模型可以使用误差反向传播算法,较好地解决了深度学习中的贡献度分配问题。从历史发展看,神经网络诞生于1943年提出问世了如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络 (LSTM)等经典的深度学习算法。2017年,Transformer架构的出现成为计算机增持(维持)研究员SACNo.S0570519080006SFCNo.BQZ938研究员SACNo.S0570515060003SFCNo.BQB164研究员SACNo.S0570521060004联系人SACNo.S0570121070173联系人SACNo.S0570122080053联系人SACNo.S0570122060076春生xiechunsheng@+(86)2129872036guoyali@+(86)1056793965fanyirui@+(86)1063211166penggang@+(86)2128972228yuanzeshi@+(86)2128972228linhailiang@+(86)2128972228了后来LLM的基础架构,再次开启了大语言模型快速发展时期。发展:从GPT-1到GPT-4,开启大模型新纪元2018年,OpenAI提出生成式预训练模型GPT-1,引入有监督的微调训练。2019年,GPT-2以更大的参数量和多任务训练进行zero-shot学习;2020年,GPT-3用few-shot代替zero-shot,并将训练参数增加到1750亿,再次提高模型表现性能。2022年,InstructGPT引入基于人类反馈的强化学习,实现了更符合人类预期的模型输出。2022年11月,OpenAI正式推出对话ChatGPT天时间突破了100万用户。2023年3月,GPT-4问世,支持多模态输入,并能高水准完成专业考试,支持API。延伸:国内大模型快速成长,海外大模型多维拓展大模型时代到来,模型体系与生态快速扩充,海内外企业坚定发力。受益于大模型的理解能力、推理能力、泛化能力得到充分验证,海内外企业纷纷加速大模型相关的产业布局,全面拥抱大模型时代的技术变革。1)国内:国内大模型发展起步相对较晚,ChatGPT问世以来国内企业加速大模型研发,2023年以百度文心、商汤日日新、讯飞星火等为代表的国产大模型相继发布,并持续推进模型迭代升级;2)海外:海外大模型发展呈现垂直落地、工程实现、模态丰富三大发展趋势,模型体系与配套的工程生态日益丰富。产业链相关公司梳理包括寒武纪、景嘉微、海光信息等芯片厂商以及浪潮信息、中科曙光、工业富联等服务器厂商;2)模型:包括百度、三六零、科大讯飞、昆仑万维、商汤科技等科技企业;3)应用:2C简单包括金山办公、科大讯飞、同花顺、万兴科技、东方财富、汉仪股份、汉王科技、萤石网络等企业;2B简单包括泛微网络、致远互联、上海钢联、彩讯股份等企业;2C复杂包括中望软件、索辰科技、广联达等企业;2B复杂包括恒生电子、石基信息、科大讯飞、汉王科技、金桥信息等企业。风险提示:宏观经济波动;大模型技术迭代不及预期;本报告内容基于客观资料整理,不构成投资建议。行业走势图计算机沪深300(%)6646266(14)May-22Sep-22May-22Sep-22May-23资料来源:Wind,华泰研究 溯源:从经典神经网络到Transformer架构 4深度学习是基于神经网络的机器学习 4关系梳理:人工智能>机器学习>深度学习 4深度学习与神经网络发展历史(1943-2017) 4 Transformer:基于自注意力机制的新兴架构 9 模型特点:无监督训练+有监督微调 11GPTZeroshot 12GPT-2:开启“单模型解决多任务”新纪元,大容量技术路线确定 13模型特点:多任务学习+大模型容量+无微调建模 13 模型特点:大参数量+大训练集+few-shot 15xGPT ChatGPT/InstructGPT:增加人类反馈强化学习(RLHF) 19优化目标:从提示学习到指示学习,聚焦需求对齐(alignment) 19 GPT 21GPT-4:支持多模态输入,安全问题或成为LLM关注焦点 21能力测试:在专业和学术基准上表现出了人类的水平 22 海外大模型多维拓展 24 强大语言模型 24 AGI 智源研究院:超大规模“悟道”模型,构建完备大模型生态体系 28海外大模型多维拓展,看好垂直落地、工程实现、模态丰富三大趋势 30垂直落地:BloombergGPT提供构建垂直行业大模型的有益参考 30工程实现:AutoGPT充分展现大模型有望重塑人机交互范式 32模态丰富:SAM模型实现大模型在CV领域的模态延展 33 Transformer开启大语言模型发展新时期,为人工通用智能铺平了道路。大语言模型(LLM)是在大量数据集上预训练的巨大模型,且没有针对特定任务调整数据,其在处理各种NLP (自然语言处理)任务方面显示出了较大潜力,如自然语言理解(NLU)、自然语言生成任务等,甚至为人工通用智能(AGI)铺平了道路。而近年来的LLM,基本都脱胎于2017年Google提出的Transformer编解码器架构,Transformer开启了LLM发展的新时期。基于Transformer架构的三条演进路线中,解码器路线发展最为迅速。从LLM近年的发展情况来看,其路线主要分为三种:1)编码器路线;2)编解码器路线;3)解码器路线。从发展特点来看:1)解码器路线占据主导,编码器路线趋于落寞,归因于2020年GPT-3模型表现出的优异性能;2)GPT系列模型保持领先,或归因于OpenAI对其解码器技术道路的坚持;3)模型闭源逐渐成为头部玩家的发展趋势,这一趋势同样起源于GPT-3模型,而Google等公司也开始跟进;4)编解码器路线仍然在持续发展,但是在模型数量上少于解码器路线,或归因于其复杂的结构,导致其在工程实现上没有明显的优势。国内百度、智源等公司和组织在大模型上有较深厚的积累。百度的文心一言基于ERNIE系列模型,该模型最早于2019年提出,到2021年迭代到ERNIE3.0版本,技术路线也从最初的编码器路线转移到解码器路线,性能提升明显。智源研究院则依托于清华等高等学府及其研究成果,2021年提出的GLM模型成为智源悟道大模型的重要技术基础。据日经亚洲信息,微软总裁布拉德认为智源是微软、OpenAI和Google重要竞争对手。图表1:大语言模型(LLM)演化树资料来源:《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》,YangJingfeng(2023)、华泰研究本部分将从神经网络出发,梳理深度学习方法的发展情况,引出注意力机制与Transformer架构,并对全球LLM的典型代表——GPT系列模型进行详细拆解。此外,还将对国内快速发展的百度文心一言、商汤科技日日新、科大讯飞星火、智源悟道等大模型,以及大模型在金融垂直领域的重要应用BloombergGPT等进行详细解析。基于神经网络的机器学习深度学习可以概括为特征的抽象和结果的预测。深度学习是将原始的数据特征通过多步的特征转换得到一种更高层次、更抽象的特征表示,并进一步输入到预测函数得到最终结果。深度学习需要解决的关键问题是贡献度分配问题(CreditAssignmentProblem,CAP),即一个系统中不同的组件(component)或其参数对最终系统输出结果的贡献或影响。深度学习的目标是让模型自动学习出好的特征表示,从而最终提升预测模型的准确率。层特征学习资料来源:《神经网络与深度学习》(邱锡鹏),ISBN:9787111649687、华泰研究关系梳理:人工智能>机器学习>深度学习人工智能包括机器学习,机器学习包含深度学习。人工智能(AI)的重要组成部分是机器学习(ML),而神经网络(NN)是ML的一个子领域。深度学习可以看做是神经网络的分支,使用了更复杂和更深层次的网络结构,如卷积神经网络(CNN),来处理更高维度和更个分支。深度学习与强化学习可以相互结合,称为深度强化学习(DRL)。人工智能机器学习神经网络深度学习深度强化学习强化学习资料来源:《TheHistoryBeganfromAlexNet:AComprehensiveSurveyonDeepLearningApproaches》,Zahangir(2018)、《DeepReinforcementLearning》,YuxiLi(2017)、华泰研究深度学习与神经网络发展历史(1943-2017)神经网络诞生于1943年,深度学习崛起于2006年。1943年,心理学家McCulloch和数学家Pitts最早提出了一种基于简单逻辑运算的人工神经网络—MP模型,开启了人工神经网络研究的序幕。1986年,Hinton提出第二代神经网络,并利用误差的反向传播算法来训练模型,该算法对神经网络的训练具有重要意义。1989年,YannLeCun等提出卷积神经网络(CNN)用来识别手写体。1997年,循环神经网络(RNN)的改进型长短时记忆网络 (LSTM)被提出。2006年,Hinton首次提出了深度置信网络(DeepBeliefNetwork,DBN)和深度学习的概念。2014年,生成对抗网络(GAN)的提出是深度学习的又一突破性进展。2016年,AlphaGo击败围棋世界冠军李世石,将深度学习推向高潮。WGANAlphaGoZeroapsNet20172016 2015AlphaGoGANMTTasterRCNN Minsky专著《感知器》出版,支出单层感知器不能解决“异或回路”问题,且当时计算能力无法满足神经网络计算需求GoogleNetVGGNet 2014 Clarifai 2013 20121969WGANAlphaGoZeroapsNet20172016 2015AlphaGoGANMTTasterRCNN Minsky专著《感知器》出版,支出单层感知器不能解决“异或回路”问题,且当时计算能力无法满足神经网络计算需求GoogleNetVGGNet 2014 Clarifai 2013 20121969Xavier1998 utAlexNet 2011201019891997单层感知器 20061958万能逼近定理卷积神经网络 1943信念网MP神经元数学模型 快速发展潮爆发期浅层学习浪潮第一代神经网络第二代神经网络第三代神经网络86反向传算法注:最大圆圈表示深度学习热度上升与下降的关键转折点,实心小圈圈的大小表示深度学习的突破大小,斜向上的直线表示深度学习热度正处于上升期,斜向下的直线表示下降期。资料来源:《深度学习研究综述》,张荣(2018)、华泰研究CNN+汇聚+全连接典型的卷积神经网络是由卷积层、汇聚层、全连接层交叉堆叠而成。其中,一个卷积块包括连续M个卷积层和b个汇聚层(M通常设置为2~5,b为0或1)。一个卷积网络中可以或者更大;K一般为0~2)。CNN能够有效的将大数据量的图片降维成小数据量,并有效的保留图片特征。全连接全连接层汇聚层卷积ReLU形象解释资料来源:《神经网络与深度学习》(邱锡鹏),ISBN:9787111649687、华泰研究卷积层利用卷积核实现特征提取。卷积层的作用是提取局部区域的特征,不同的卷积核相当于不同的特征提取器,反之,提取不同的特征需要不同的卷积核。输入原图经过卷积核提取后,即得到特征映射(FeatureMap),每个特征映射可以作为一类抽取的图像特征。目前,卷积网络的整体结构趋向于使用更小的卷积核(比如1×1和3×3),以及更深的结构(比如层数大于50)。资料来源:《神经网络与深度学习》(邱锡鹏),ISBN:9787111649687、华泰研究每个卷积层后引入非线性激活函数,确保整个网络的非线性。常用的激活函数为线性整流单元(RectifiedLinearUnit,ReLU),其实质是将特征图上所有负数变成0,而正数保持不变。其他常用的激活函数还有Sigmoid函数、双曲正切函数(tanh)。激活函数使得神经网络模型具有非线性,从而可以表示非线性的函数,处理更加复杂的任务。资料来源:《神经网络与深度学习》(邱锡鹏),ISBN:9787111649687、easyAI、华泰研究汇聚层进一步压缩数据和参数量。汇聚层(PoolingLayer)也叫子采样层(SubsamplingLayer)或池化层,其作用是进行特征选择,降低特征数量,减少参数数量。典型的汇聚层是将每个特征映射划分为2×2大小的不重叠区域,然后使用最大汇聚的方式进行下采样,即用2×2区域的最大值代替整个区域的值。此外,还可以采用2×2区域的平均值来代替整个区域值。{4,3,0,1}中4最大,选取4代表这个区域(选取最大值)平均汇聚(计算平均值){6,5,2,1}平均值为3.5,选取3.5代表这个区域资料来源:《神经网络与深度学习》(邱锡鹏),ISBN:9787111649687、华泰研究全连接层采用神经网络中的前馈网络结构。将池化后的结果按顺序排成一列,输入全连接层。全连接层把相邻两层的神经元全部交叉相联结,两层之间所有神经元都有相应的权重,经计算后得到最终输出结果。通常全连接层在卷积神经网络尾部。资料来源:《神经网络与深度学习》(邱锡鹏),ISBN:9787111649687、华泰研究卷积神经网络参数可利用误差反向传播算法来确定。卷积神经网络可以通过误差反向传播 (Backpropagation)和梯度下降等算法进行参数学习,包括确定卷积核参数和全连接网络权重等。RNN的神经网络循环神经网络(RNN)是一类具有短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其他神经元的信息,也可以接受自身的历史信息,形成具有环路的网络结构。和前馈神经网络相比,循环神经网络更加符合生物神经网络的结构。循环神经网络的短期记忆能力提供了一定的存储功能,因此其计算能力更为强大。理论上,循环神经网络可以近似任意的非线性动力系统。stst-1M在RNN基础上,增加了新的内部状态stst-1M在RNN基础上,增加了新的内部状态变量c,用来实现更长的短时记忆原理图形象展示形象展示t-1St-1tStSt+1S神经网络在时间层面建立起了联系资料来源:《神经网络与深度学习》(邱锡鹏),ISBN:9787111649687、华泰研究LSTM:将短期记忆进一步延长LSTM引入门控机制,解决RNN的长程依赖问题。循环神经网络在学习过程中的主要问题是由于梯度消失或爆炸问题(也称为长程依赖问题),可以简单理解为参数无法正常更新(梯度变得很大或变为0),很难建模长时间间隔状态之间的依赖关系。长短时记忆网络(LongShort-termMemory,LSTM)引入门控机制,很好了解决了RNN的上述问题。LSTM网络特点在于新内部状态和门控机制的引入。1)新的内部状态:与RNN相比,LSTM网络引入一个新的内部状态(internalstate)ct,专门进行线性的循环信息传递。在每个时刻t,LSTM网络的内部状态ct记录了到当前时刻为止的历史信息,相当于延长了网络的记忆特性。2)门控机制:引入遗忘门、输入门和输出门。其中,遗忘门控制上一个时刻的内部状态需要遗忘多少信息;输入门控制当前时刻的候选状态有多少信息需要保存;输出门控制当前时刻的内部状态有多少信息需要输出给外部状态。参数训练方面,虽然相比RNN,LSTM引入了更多参数矩阵,但依然可以使用梯度下降算法进行参数更新。资料来源:《神经网络与深度学习》(邱锡鹏),ISBN:9787111649687、华泰研究循环神经网络的隐状态s为短期记忆,新内部状态c具有更长的记忆。循环神经网络中的隐状态s存储了历史信息,可以看作一种记忆。在简单循环网络中,隐状态每个时刻都会被重写,因此是一种短期记忆。在神经网络中,长期记忆可以看作网络参数,隐含了从训练数据中学到的经验,其更新周期要远远慢于短期记忆。在LSTM网络中,记忆单元c可以在某个时刻捕捉到某个关键信息,并有能力将此关键信息保存一定的时间间隔,其保存信息的生命周期要长于短期记忆s,但又远远短于长期记忆,因此称为长(的)短期记忆。Transformer力机制的新兴架构Transformer是一种基于自注意力机制的编码器-解码器深度学习模型。2017年6月,GoogleBrain在神经信息处理系统大会(NeurIPS)发表论文“Attentionisallyouneed”,首次提出了基于自我注意力机制(self-attention)来提高训练速度的Transformer模型,将其用于自然语言处理。Transformer架构由编码器和解码器(Encoder-Decoder)两个部分组成,每个部分包含多个子层,如多头自注意力、前馈神经网络、和归一化等。Transformer架构的优点是:1)可以并行处理输入序列的所有元素,大大提高训练速度;2)不需要依赖循环或卷积结构,能够捕捉长距离的依赖关系,3)可以通过预训练和微调的方式适应不同的任务。因此,Transformer一经问世便大有取代传统CNN、RNN的趋势。编码器编码器编码器编码器编码器编码器输入输出解码器解码器解码器解码器解码器解码器资料来源:《Attentionisallyouneed》,AshishVaswani(2017)、华泰研究r输输出概率归一化指数函数线性化向量相加&归一化前馈神经网络向量相加&归一化向量相加&归一化多头自注意力前馈神经网络向量相加&归一化向量相加&归一化带掩模的多头自注意力层位置编码位置编码输出向量多头自注意力输入向量资料来源:《Attentionisallyouneed》,AshishVaswani(2017)、华泰研究自注意力机制是Transformer的核心理念,注意力机制帮助机器在学习过程中聚焦在重要信息上。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标是从众多信息中选择出对当前任务目标更关键的信息,忽略大多不重要的信息。QueryAttentionalue图表14:QueryAttentionalue资料来源:CSDN、华泰研究注意力模型可以用Query、Key和Value模型进行描述。本质上Attention机制是对Source中元素的Value值进行加权求和,而Query和Key用来计算对应Value的权重系数。以大脑读图为例,Value可以理解为人眼视网膜对整张图片信息的原始捕捉,不受“注意力”所影响;Key与Value相关联(<Key,Value>数据对),是图片原始信息所对应的关键性提示信息;读者大脑有意识地向图片获取信息,即发起了一次Query,包含了读者的意图等信息。在一次读图过程中,Query与Key之间计算出每个Key对应Value的权重系数,得到最具有吸引力的部分,然后对Value进行加权求和,即得到了最终的AttentionValue数值。Value4SourceValue1Value2Value3资料来源:CSDN、华泰研究Transformer的自注意力机制是特殊情况下的注意力机制。在一般任务的Encoder-Decoder框架中,输入Source和输出Target内容是不一样的,例如对于英-中机器翻译来说,Source是英文句子,Target是对应的翻译出的中文句子。注意力机制发生在Target的元素Query和Source中的所有元素之间。而自注意指的不是Target和Source之间的注意力机制,而是Source内部元素之间或者Target内部元素之间发生的注意力机制,也可以理解为Target=Source这种特殊情况下的注意力计算机制。具体计算过程相同,只是计算对象发生变化。自注意力机制更容易捕获句子中长距离的相互依赖的特征,且对于增加计算的并行性也有直接帮助作用。GPT-1:基于Transformer的预训练+微调半监督模型GPT-1是预训练+微调相结合的语言理解任务半监督模型。GPT全称生成式预训练 nerativePretrainingGPTOpenAIImprovingLanguageUnderstandingbyGenerativePre-Training》中提出。从架构上看,GPT-1基于Transformer架构,但是仅保留了架构中的解码器(Decoder)部分。文本预测文本分类TextTaskPredictionClassifierLayerNorm归一化层+FeedForward前馈神经网络12×LayerNorm归一化层+带掩模自注意力层MaskedMulti带掩模自注意力层Text&PositionEmbed文本&位置向量矩阵资料来源:《ImprovingLanguageUnderstandingbyGenerativePre-Training》,AlecRadford(2018)、华泰研究模型特点:无监督训练+有监督微调GPT-1的训练过程分为无监督训练和有监督微调。GPT-1的训练过程分为两个阶段:第一阶段为非监督预训练阶段,即在大型文本语料库上学习高容量语言模型。第二阶段为监督微调阶段,即在第一阶段训练的基础上,将参数调整为受监督的目标任务,进行进一步优1)第一阶段:采用多层Transformer模型的解码器(Decoder)为语言模型,进行基于大文本语料库的高容量无监督学习。2)第二阶段:在微调时,若输入的问题具有结构化特征,例如有序的句子对或文档、问题和答案的三元组,则需要首先将问题转化成特定的序列模块,再进行训练。例如,对于文本蕴涵任务,将前提和假设序列相连接,并在中间插入分隔符;对于相似性任务,则将两个需要比较的句子按照不同顺序排列,分别进行处理后再做比较;对于更复杂的问题回答和常识推理任务,则需要将文本、问题和可能的答案分别连接成不同序列,并对所有序列做独立的模型处理,将结果归一化得到可能答案的输出分布。ExtractClassification分类任务 TransformerLinearStartDelimAnswer1ExtractContextTransformerStartContextLinearTransformerMultipleChoice问答任务ExtractClassification分类任务 TransformerLinearStartDelimAnswer1ExtractContextTransformerStartContextLinearTransformerMultipleChoice问答任务ContextTransformerStartLinearStartEntailment推理任务StartPremiseDelimHypothesisExtract TransformerLinearTransformerStartText1LinearSimilarity相似性任务StartTransformerStartText1LinearSimilarity相似性任务StartTransformerText2DelimText2ExtractDelimText1ExtractLinearDelimAnswer2ExtractDelimAnswerNExtract资料来源:《ImprovingLanguageUnderstandingbyGenerativePre-Training》,AlecRadford(2018)、华泰研究无监督训练采用大数据集,有监督微调采用针对任务的数据集。在无监督训练阶段,采用了12层解码器(Decoder)堆叠的Transformer模型,共包含12个掩蔽自注意力头(maskedself-attentionhead)。训练数据集方面,采用BooksCorpus数据集,该数据集包括7000多本来自风格不同的未出版书籍,内含长段的连续文本。也可使用备选数据集1BWordBenchmark。在无监督训练阶段,提高解码器的层数能够有效提高训练效果。在有监督微调阶段,可根据不同任务类型选择不同的数据集。任务数据集自然语言推理SNLI,MultiNLI,QuestionNLI,RTE,SciTail问题解答RACE,StoryCloze句子相似性MSRParaphraseCorpus,QuoraQuestionPairs,STSBenchmark分类StanfordSentimentTreebank-2,CoLA资料来源:《ImprovingLanguageUnderstandingbyGenerativePre-Training》,AlecRadford(2018)、华泰研究理解GPT系列论文是我们理解GPT模型技术路径演绎的重要方法。GPT-2论文的核心重点在于验证是否可以通过更多的训练数据+更大的网络参数让模型具备零次学习(Zero-shot实验结果证明,当训练数据足够多、模型参数足够大时,就可以通过训练一个模型,处理多类任务;自此确立了GPT模型向更大容量演进的发展目标。资料来源:OpenAI官网、华泰研究GPT-2:开启“单模型解决多任务”新纪元,大容量技术路线确定《LanguageModelsareUnsupervisedMultitaskLearners》论文发表,GPT-2开启“一个模型处理多类任务”的新时代。GPT(GenerativePre-trainedTransformer)系列预训练语言模型,早在2018年在论文《ImprovingLanguageUnderstandingbyGenerative处理有监督任务”模型的有效性。2019年2月,论文《LanguageModelsareUnsupervisedMultitaskLearners》正式发表,基于“无监督学习的全局最小也必定是监督学习的全局最小”的理论基础,GPT-2模型去掉fine-tune层,不再针对不同任务分别进行微调建模,而是通过使用更多的网络参数和更大的数据集来强化模型的泛化能力。GPT-2模型成功验证了更多训练数据+更大的网络参数可以有效地提升模型的泛化能力,实现了“训练一个模型可以解决多类任务”的效果,不再需要针对不同任务进行模型微调。GPT-2的成功自此开启了GPT模型向更大容量扩展的技术发展路径。资料来源:《LanguageModelsareUnsupervisedMultitaskLearners》,AleeRadford(2019)、华泰研究模型特点:多任务学习+大模型容量+无微调建模特点一:预训练阶段采用多任务学习方式GPT-2在预训练阶段采用多任务学习方式。不同于单任务学习,单次仅针对一个任务学习,以及模型参数独立的特点;多任务学习,单次可同时学习多个任务,同时各个任务之间的模型参数共享,可以实现已学习信息的共享、补充,有效提升了模型的学习效率。资料来源:《ModelingTaskRelationshipsinMulti-taskLearningwithMulti-gateMixture-of-Experts》,AlexKendall(2017)、华泰研究多任务学习有效防止模型过拟合,提升模型的泛化能力。为理解多任务学习对模型泛化能力的提升,首先需要明晰噪音、过拟合、泛化这几个概念。1)噪音:任务学习过程不相关的信息为噪音;2)过拟合:训练出来的模型在训练集上表现很好,但是在测试集上表现较差的一种现象;3)泛化:模型对新测试集(之前没见过的数据)的适应能力。三者之间的联系是,当把噪声作为有效信息或训练数据集较小时,容易导致模型过拟合,模型过拟合导致模型的泛化能力变差。多任务学习提升模型泛化能力的原因主要有三点:1)训练数据集更大;2)多任务之间有一定相关性,多任务学习相当于隐式数据增强;3)多任务学习的共享模块需要兼顾所有任务,一定程度避免了模型过拟合到单个任务的训练集。资料来源:《神经网络与深度学习》,邱锡鹏(2020)、华泰研究特点二:GPT-2拥有较大的模型容量GPT-2最大模型(GPT-2EXTRALARGE)的层数达到48层,词向量长度到1,600。1)层数:理解层数对GPT模型的影响,需要理解GPT的模型架构。GPT模型由层层堆叠的Transformer模块组成,因此可以理解为模型层数越多,模型可以完成的非线性映射就越复杂,模型的学习能力更强;2)词向量长度:词向量长度即隐藏层的神经元个数,每一层Transformer都是一个隐藏层,隐藏层的神经元个数越多,即可以产生越复杂的组合,拟合GPT《LanguageModelsdMultitaskLearnersGPTGPT多为48层,词向量长度(隐藏层维度)最大为1,600,模型的最大参数量多达15亿。资料来源:《LanguageModelsareUnsupervisedMultitaskLearners》,AleeRadford(2019)、华泰研究特点三:GPT-2取消fine-tune微调建模层GPT-2旨在“训练一个模型,解决多类任务”,因此取消fine-tune微调建模层。GPT-2聚焦模型的泛化能力,旨在通过多任务学习训练一个模型,训练好的这一个模型可以解决多类任务,无需再根据特定任务进行模型微调。因此,GPT-2模型在训练任务中取消了fine-tune任务,只保留了语言模型部分的训练,同时将诸多下游任务根据各自的特点,规划成语言模型的训练,使得最终的语言模型学到的东西更丰富,拥有更多样的应用,奠定了模型的Zero-shotLearning(零次学习)的基础。资料来源:《ImprovingLanguageUnderstandingbyGenerativePre-Training》,AleeRadford(2018)、华泰研究nAILanguageModelsareFew-ShotLearners》,提出GPT-3模型。GPT-3模型的参数量达1750亿,是GPT史上最大的参数规模。在GPT-2的zero-shotlearning(零次学习)基础上,GPT-3在zero-shot、one-shot(一次学习)和few-shot(少量学习,通常10-100次)方面均进行了评估,取得了较好的训练结果:例如,GPT-3在zero/one/few-shot设置下CoQA(测试阅读理解能力)分别达到81.5、84.0、85.0F1(F1分数是统计学中用来衡量二分类模型精确度的一种指标,值越大意味着模型越好);在在zero/one/few-shot设置下TriviaQA(测试闭卷问答能力)分别达到64.3%、68.0%、71.2%的准确度,部分结果甚至超过微调模型。OpenAI指出,GPT-3也可以在传统的微调设置中进行评估。GPT-3模型延续了GPT-2模型“更多训练数据+更大的网络参数可以有效地提升模型的泛化能力”的理念,将模型参数提升到新高度。同时与GPT-2一样舍弃了针对不同任务进行的微调,转而用few-shot来实现下游任务,兼顾了训练效果与成本。模型特点:大参数量+大训练集+few-shot特点一:架构基本不变,参数量大大增加GPT-3延续了GPT-2的大容量发展路线。GPT-2已经证明,通过更多的训练数据+更大的网络参数能够让模型具备zero-shot学习能力,并取得了一定的效果,由此确立了GPT模型向更大容量演进的发展路线。GPT-3延续了这一路线,将模型参数由GPT-2的15亿增•1.17亿参数量•5GB预训练数据量GPTGPT-1•15亿参数量•40GB预训练数据量GPTGPT-2•1750亿参数量•大于570GB预训练数据量GPTGPT-3GPT-3模型基于GPT-2的大容量路线,进一步将模型参数扩大超100倍,达1750亿,大容量扩展的技术发展路径达到顶峰资料来源:OpenAI官网、华泰研究大训练参数能明显提高GPT-3模型准确性。从上下文学习能力训练结果准确率来看,对于GPT-3模型,当模型参数量较低时,模型准确率较低,例如参数量1.3B的模型准确率不超时,准确率最高接近70%,进一步验证了GPT-2大容量路线的正确性。资料来源:《LanguageModelsareFew-ShotLearners》,TomBrown(2020)、华泰研究GPT-3和GPT2采用几乎同样的架构。GPT-3和GPT-2模型和架构基本相同,包括修改后的初始化、预归一化和可逆标记化,唯一区别在于将transformer中注意力模式替换成了类似SparseTransformer的稀疏注意力模式。资料来源:《LanguageModelsareFew-ShotLearners》,TomBrown(2020)、华泰研究特点二:采用few-shot学习完成下游任务Few-shot取代zero-shot,训练效果得到进一步加强。GPT-2模型中,在下游训练时采用zero-shot学习理念,在执行各类子任务时不给任何样例,属于较为极端的情况。虽然在GPT-2在某些测试中取得了不错的效果,但在一些任务上结果不达预期。因此,OpenAI引入了few-shot,即对于特定任务仅给予少量的样例(10-100个),没有任何梯度更新或微调,任务和few-shot示例均通过与模型的文本交互指定。从多种训练基准综合训练结果来看,few-shot能够取得比zero-shot更好的准确度。hot注:图中为多种训练基准综合的结果资料来源:《LanguageModelsareFew-ShotLearners》,TomBrown(2020)、华泰研究特点三:预训练数据集达570GB以上GPT-3训练数据集为多种数据集的混合。数据集以CommonCrawl为基础,其大小为45TB。但CommonCrawl数据集的质量低于更精确的数据集,为了保证数据集质量,一方面对CommonCrawl进行过滤,大小压缩到570GB,另一方面增加了质量更高的数据集,如WebText2、Wikipedia等。在训练期间,数据集的采样并不与其大小成比例,而是质量更高的数据集采样频率更高,因此CommonCrawl和Books2数据集在训练期间采样次数少于一次,其他更高质量的数据集采样次数为2-3次,以换取更高质量的训练数据。比较来倍以上。资料来源:《LanguageModelsareFew-ShotLearners》,TomBrown(2020)、华泰研究Codex:基于GPT-3的代码生成工具Codex是在GPT-3上基于GitHub公开代码进行微调的代码生成模型。Codex的模型结构和GPT-3相同。OpenAI从Github上搜集了5400万个公共软件库代码,集合而成训练数据集,包含179GB的Python文件,每个文件小于1MB。同时过滤了部分可能是自动生成的文件,最终的数据集大小为159GB。Codex即是参数量12B的GPT-3基于该数据集微Eval手工设计的编程问题,避免问题出现在基于GitHub的训练数据集中。OpenAI还训练了Codex-S和Codex-D。Codex-S基于格式类似HumanEval的SupervisedFine-Tuning(有监督微调)数据集进行训练,训练出的模型效果比Codex更好。将SupervisedFine-Tuning数据集中的“<函数头><docstrings><函数体>”格式调换成“<函数头><函数体><docstrings>”格式,再微调得到的模型为Codex-D,即实现模型根据代码写注释的功能。11CodeXCodeX11159GB的代码数据集进行训练 CodeX-S22基于格式类似HumanEval的SupervisedFine-120120亿参数33CodeXCodeX-D33Tuning数据集进行训练将SupervisedFine-Tuning数据集中的“<函数头><docstrings><函数体>”格式调换成“<函数头><函数体><docstrings>”格式资料来源:《EvaluatingLargeLanguageModelsTrainedonCode》,MarkChen(2021)、华泰研究与类似的代码生成模型相比,120亿参数的Codex准确率最高可达72.31%。基于HumanEval评估数据集,对比了GPT-NEO、GPT-J、Tabnine等类似的代码生成模型的结果Pass@k(可以解释为评估k个样本中最优的结果)。Codex的最大版本拥有120亿参数,其Pass@100达到了72.31%,远大于其余模型的最好结果。注:k代表每个问题生成k个代码样本资料来源:《EvaluatingLargeLanguageModelsTrainedonCode》,MarkChen(2021)、华泰研究ChatGPT/InstructGPT:增加人类反馈强化学习(RLHF)优化目标:从提示学习到指示学习,聚焦需求对齐(alignment)从模型微调到提示学习再到指示学习,GPT模型零次学习能力不断提升。2022年论文《FinetunedLanguageModelsAreZero-ShotLearners》提出指示学习(Instruction-tuning)思想,以提升模型的零次学习能力。对比来看:1)模型微调(Fine-tuning):以GPT-1 (Prompt-learning):以GPT-3为代表,需要少量的微调数据样本,模型小样本学习 (few-shotLearning)能力更强;3)指示学习(Instruction-learning):以FLAN、InstructGPT、ChatGPT为代表,模型通过下游多类型任务的指示微调,零次学习(zero-shotLearning)能力更强;同时,提示学习与指示学习均为一个模型解决多类任务。图表32:模型微调(Fine-tuning)、提示学习(Prompt-learning)、指示学习(Instruction-tuning)对比资料来源:《FinetunedLanguageModelsareZero-shotLearners》,JasonWei(2022)、华泰研究聚焦模型输出与人类需求对齐,引入人类反馈强化学习。GPT系列模型发展至GPT-3,已经在翻译、问答、摘要等任务上取得了良好的性能,研究者开始更加关注模型生成内容的有用性(Helpful)、真实性(Honest)、无害性(Harmless),希望实现模型输出内容与人类偏好内容的需求对齐(alignment)。为提升模型的“3H”特性,从InstructGPT开始,InstructGPT、ChatGPT均引入人类反馈强化学习(ReinforcementLearningfromHumanFeedback,RLHF),实现基于人类反馈的模型微调,让模型输出更符合人类期待。资料来源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、华泰研究20人类反馈可作为强化学习的奖励,通过引入语言模型微调,可使模型输出与人类需求对齐。从技术原理来看,强化学习通过奖励(Reward)机制来指导模型训练,奖励机制可视为传统训练机制的损失函数;同时,奖励的计算要比损失函数更灵活、多样(例如AlphaGO的奖励是对局的胜负),代价是奖励计算不可导,不能直接用来做反向传播;强化学习的思路是通过对奖励的大量采样来拟合损失函数,从而实现模型的训练。类似的,人类反馈也不可导,也可以作为强化学习的奖励,从而产生基于人类反馈的强化学习。图表34:人类反馈强化学习(RLHF)基本原理资料来源:《DeepReinforcementLearningfromHumanPreferences》,PaulFChristiano(2017)、华泰研究训练过程:“三步走”实现人工反馈强化学习ChatGPT与InstructGPT的训练方法基本一致。了解ChatGPT与InstructGPT的优化目标之后,我们需要进一步梳理模型的具体训练过程。对比论文《Traininglanguagemodelstofollowinstructionswithhumanfeedback》(2022)中的InstructGPT训练方法与OpenAI官方发布的ChatGPT训练方法,我们看到,ChatGPT与InstructGPT的训练方法基本一致,尚未有官方论文发布,我们以InstructGPT论文为基准,对InstructGPT的训练过程进行了详细梳理,具体可分为有监督微调、奖励模型训练、PPO强化学习三个步骤。注:图中蓝色部分为InstructGPT训练示意、粉色部分为ChatGPT训练示意资料来源:OpenAI官网、《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、华泰研究21GPT在专业和学术上表现亮眼GPT-4:支持多模态输入,安全问题或成为LLM关注焦点GPT-4支持多模态输入,安全问题或成关注焦点。北京时间3月15日凌晨,OpenAI召开发布会,正式宣布GPT模型家族中最新的大型语言模型(LLM)—GPT-4。GPT-4可以接受图像和文本输入并产生文本输出。同时,OpenAI发布了GPT-4相关技术文档。从技术文档结构看,OpenAI并未对GPT-4模型本身做过多介绍,而是将大量篇幅留给模型安全性相关讨论。我们认为,在LLM走向大规模应用的过程中,随着模型规模和能力的提升,将暴露出更多安全方面的问题,或将成为未来LLM的重要关注点。年8月完成训练,此后,OpenAI一直在评估、对抗性测试并迭代和改进模型,并提出各种系统级安全缓解措施。此外,OpenAI在GPT-4文档中明确提出,考虑到竞争格局和大型模型(如GPT-4)的安全影响,本文档没有包含有关架构(包括模型大小)、硬件、训练计算、数据集构造、训练方法或类似内容的进一步细节。文档明确提供的内容包括:1)GPT-4是一个基于transformer的预训练模型,用于预测文字的下一个token;2)使用公开可用数据(如互联网数据)和第三方提供商授权的数据;3)使用来自人类反馈的强化学习(RLHF)对模型进行微调。资料来源:《GPT-4TechnicalReport》,OpenAI(2023)、华泰研究GPT-4API已开放等待列表(waitlist),API价格提升明显。当获得访问权限后,即可以对GPT-4模型进行纯文本请求(图像输入仍然处于有限的测试阶段),OpenAI将自动将模型更新为推荐的稳定模型。此外,GPT-4提供两个版本,GPT-4-8k和GPT-4-32k,前者支持token68-context(约50页文本,提供有限访问)。GPT-4-8k定价为每1k提示token0.03美元,每1k完成token0.06美元。默认速率限制每1k完成token0.12美元。(API价格网址/pricing)GPTGPT-4API价格GPTGPT-3.5API价格资料来源:《GPT-4TechnicalReport》,OpenAI(2023)、华泰研究22能力测试:在专业和学术基准上表现出了人类的水平GPT-4在各种专业和学术基准上表现出了人类的水平。OpenAI在一系列不同的基准上测试了GPT-4,包括最初为人类设计的模拟考试。考试题目包括多项选择题和自由问答题。OpenAI为每种考试形式设计了单独的提示(prompt),并且在需要的场合增加了图像输入。GPT-4并未专门针对这些考试科目进行训练,但仍取得了优秀的成绩,例如以大约前10%的成绩通过模拟律师资格考试,而GPT-3.5在该考试中成绩为后10%。资料来源:《GPT-4TechnicalReport》,OpenAI(2023)、华泰研究GPT-4在大多数语言上的结果都优于GPT3.5和现有语言模型。现有的多数机器学习测试基准都是基于英语编写的。为了测试GPT-4在其他语言中的表现,OpenAI使用AzureTranslate将MMLU基准测试(涵盖57个主题的多项选择问题)翻译成各种语言。结果表明,GPT-4在大多数语言上的结果都优于GPT3.5和现有语言模型的英语语言性能,包括全球使用人数较低的语言,如拉脱维亚语、威尔士语和斯瓦希里语。23资料来源:《GPT-4TechnicalReport》,OpenAI(2023)、华泰研究多模态:支持图片输入,未提供具体算法GPT-4能够实现图片和文本的多模态输入。GPT-4接受由图像和文本组成的提示(prompt,与纯文本设置类似),允许用户指定任何视觉或语言任务,同时输出文本信息。此外,语言模型中的few-shot提示和思维链等,在GPT-4中同样有效。但是,OpenAI未在技术文档中给出如何实现图片的输入,以及如何对图片进一步处理以注入到模型中。资料来源:《GPT-4TechnicalReport》,OpenAI(2023)、华泰研究24大模型时代到来,模型体系与生态快速扩充,海内外企业坚定发力。受益于ChatGPT的成功问世,大模型的理解能力、推理能力、泛化能力得到充分验证,海内外企业纷纷加速大模型相关的产业布局,全面拥抱大模型时代的技术变革。1)国内:国内大模型发展起步相对较晚,ChatGPT问世以来国内企业加速模型研发,2023年以百度文心、阿里通义、讯飞星火等为代表的国产大模型相继发布,并持续推进模型迭代升级;2)海外:海外大模型发展呈现垂直落地、工程实现、模态丰富三大发展趋势,模型体系与配套的工程生态日益丰国内大模型发展起步相对较晚,模型能力呈现快速优化态势。目前国内布局通用大模型的企业主要包括互联网科技企业、人工智能企业、初创研究团队等三类。1)互联网科技企业:主要包括百度、三六零、阿里、腾讯、华为、昆仑万维等科技企业,作为互联网行业的成熟公司,此类参与者在人工智能领域拥有深厚的业务积累,同时在模型训练上掌握一定的基础性优势(算力资源、语料资源);2)人工智能企业:包括商汤、科大讯飞等人工智能企业,作为AI领域的垂直深耕者,此类参与者对于大模型的理解、训练、优化具备更加垂直的行业Know-How;3)初创研究团队:包括北京智源研究院、Minimax等研究型机构/企业,此类参与者垂直聚焦大模型相关技术的研究,业务专注度更高。百度:文心大模型2月发布,新一代知识增强大语言模型百度发布了其新一代知识增强大语言模型——文心一言。2023年3月16日,百度召开了文心一言发布会,发布了其最新的知识增强型大语言模型文心一言。从演示效果看,文心一言一定程度上具备了人类对自然语言的理解、表达和推理能力,并且在涉及中文理解和中华传统文化的理解上有相对优于GPT等国外模型的优势。针对文心一言,发布会提出了5种应用场景、6个关键技术、1个技术堆栈和3大产业机会。目前,文心一言已开放个人测试资格排队申请和企业API申请。文心一言在文学和商业文案创作、数理逻辑推算、中文理解、多模态生成领域均有应用。整体来看,文心一言已经具备了较好的自然语言的理解、表达和推理能力,是多领域“通才”。我们使用发布会上展示的各场景下的问题,对ChatGPT(基于GPT-3.5)和微软新Bing(基于GPT-4)进行了同样的提问,并将结果进行了对比(说明:由国外同事代为测试)。可以发现,文心一言在对中国传统文化的理解上更加深入,中文支持效果更好。文心一言基于百度ERNIE和PLATO模型,并在训练技术上进行了创新。从文心一言架构图看,底层以ERNIE和PLATO模型为基础,在训练中引入了大模型常用技术:有监督精调(fine-tuning)、基于人类反馈的强化学习(RLHF)和模型提示(prompt),以及百度创新的技术:知识增强、检索增强和对话增强。文心一言知知识增强有有监督精调ERNIE检检索增强人人类反馈强化学习对对话增强提示提示PLATO资料来源:文心一言发布会、华泰研究25ERNIE获得多个SOTA结果。最早的ERNIE1.0是百度在16个中英文数据集上获得SOTA(state-of-the-art,目前最好的意思)结果。2021年7月,ERNIE3.0问世,提出了多范式统一预训练框架,将自回归和自编码网络进行了融合,并在训练时加入了知识图谱类数据,在SuperGLUE测试基准上获得SOTA结果。2018.10BERT编码器编码器编码器编码器编码器编码器BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding2019.3ERNIEERNIE1.0..通过建模词、实体及实体关系,学习真实世界的语.直接对先验语义知识单元进行建模,增强了模型语义表示能力类、资讯类中文语料外,ERNIE还引入了论坛对话据.预训练任务ERNIE1.0与BERTERNIE:EnhancedRepresentationthroughKnowledgeIntegration2019.7ERNIEERNIE2.0..基于持续学习的语义理解预训练框架.使用多任务学习增量式构建预训练任务ERNIE2.0:AContinualPre-trainingFrameworkforLanguageUnderstanding2021.7ERNIEERNIE3.0..多范式统一预训练框架,络被创新型地融合在一起进行预训练.训练时大规模引入知识图谱类数据ERNIE3.0:Large-scaleKnowledgeEnhancedPre-trainingforLanguageUnderstandingandGeneration资料来源:文心大模型官网、华泰研究商汤科技作为最大AI软件公司,加速实现从AIaaS到MaaS跨越。商汤科技成立于2014年,于2015年开始研发深度学习训练框架SenseParrots,而后形成企业服务、城市管理、消费者、汽车四大应用领域的AI平台布局;公司自2019年起发布首个CV大模型,搭建了NLP、CV、多模态在内的多模态大模型体系;2023年4月,公司正式发布日日新 (SenseNova)系列大模型,有望实现从AIaaS(人工智能即服务)到MaaS(模型即服务)的业务跨越,加速开启通用人工智能(AGI)的新时代。商汤日日新基于大模型体系发布商量、秒画、如影、格物、琼宇、明眸六大AI应用。其中商量SenseChat底层对应商汤NLP模型;秒画SenseMirage、如影SenseAvatar、琼宇SenseSpace、格物SenseThings底层对应商汤AIGC模型;明眸数据标注平台底层对应资料来源:商汤科技官网、华泰研究261)NLP模型:商汤基于自研1,800亿中文大语言模型打造的商量SenseChat对话应用,在中文文本的理解上具有突出优势,支持问答、理解与生成等中文语言能力,可实现多轮对话、逻辑推理、语言纠错、内容创作、情感分析等。相较GPT等海外模型,商汤NLP模型具备三大突出特点:1)中文理解:根据商量的测试表现,商汤NLP模型的中文理解能力更强;2)超长文本:可实现PDF阅读理解的功能,支撑更长的输入文本;3)及时更新:商汤NLP模型实现了知识的自动实时更新,让生成的内容更可信、更准确、更安全。资料来源:商汤科技官网、华泰研究2)AIGC模型:商汤“日日新SenseNova”基于超10亿参数规模的AIGC模型,打造了多类AIGC应用,包括文生图创作、2D/3D数字人生成、大场景、小物体生成等,实现空间、人、物的生成、融合与交互。3)多模态模型:商汤发布多模态多任务通用大模型“书生(INTERN)2.5”(30亿参数),在多模态多任务处理能力方面实现多项全新突破,其卓越的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持,向通用人工智能迈出坚实的一步。书生2.5性能优越,在20+不同场景不同任务的数据集中取得最佳成绩。在视觉主流图像分类数据集ImageNet上,书生2.5仅基于公开数据便达到了90.1%的Top-1准确率,是除谷歌与微软之外,唯一准确率超过90.0%的模型,同时书生2.5也是世界上开源模型中ImageNet准确度最高、规模最大的模型。资料来源:商汤科技官网、华泰研究27科大讯飞:星火大模型5月发布,AGI核心能力表现出色科大讯飞在AI认知智能领域已有十几年的积累,具备认知大模型“智能涌现”的源头核心技术储备。14年讯飞就推出讯飞超脑计划,明确提出要让机器像人一样具备“能理解、会思考”的能力;17年讯飞智医助理在全球首次通过了国家执业医师资格考试,超过了96.3%参加考试的医生;19年在斯坦福大学发起的国际著名SQuAD机器阅读理解比赛中,讯飞模型在英文阅读理解中首次超过了人类平均水平;22年在艾伦研究院组织的OpenBookQA科学常识推理比赛中,讯飞单模型首次超过了人类平均水平;22年1月,讯飞正式宣布讯飞超脑2030计划,要让“懂知识、会学习、能进化”的通用人工智能技术,以机器人的实体形态或虚拟形态能够进入到每一个家庭;22年12月,讯飞启动认知智能大模型的专项AI用成果。资料来源:科大讯飞官网、华泰研究讯飞星火大模型在AGI核心能力上表现出色。当前通用人工智能令人关注的七大维度:包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力。星火认知大模型发布六大核心能力。在发布会上,讯飞主要围绕6个主要方向(不包含多模态,属于下一代能力)进行了现场的真实测试。资料来源:科大讯飞官网、华泰研究同时科大讯飞发布星火大模型年内持续升级的关键里程碑:6月9日:突破开放式问答(接入搜索引擎)、多轮对话能力再升级、数学能力再升级;8月15日:突破代码能力、多模态交互再升级;10月24日:通用模型对标ChatGPT(中文超越,英文相当)。28资料来源:科大讯飞官网、华泰研究智源研究院:超大规模“悟道”模型,构建完备大模型生态体系北京智源研究院为非盈利的研究机构,旨在搭建高效活力的AI研发平台。2018年,北京智源人工智能研究院(BeijingAcademyofArtificialIntelligence,BAAI)在科技部和北京市支持下,联合北京人工智能领域优势单位共建,旨在推动人工智能领域发展政策、学术思想、理论基础、顶尖人才与产业生态的五大源头创新。目前,智源研究院汇聚了清华、北大等高等学府100+顶尖AI科学家,下设基础模型、生命模拟、健康计算、自主医学检查系统、千方智慧医疗、人工智能伦理与可持续发展、人工智能社会实验、战略研究等8大研究中心。料来源:BAAI官网、华泰研究从研究体系来看,智源研究院涵盖四大业务场景。1)悟道大模型:主要开展通用大模型的技术研究,旨在打造具有国际领先水平的基础大模型,加速国产大模型的发展进程;2)飞智开源体系:搭建支撑大模型发展的一站式基础软件体系,涵盖算法、工具、评测、艺术创作、服务框架等六大领域;3)天演AI生命模拟工程:旨在通过对生物智能进行高精度推动由生物启发的通用智能;4)九鼎算力平台:探索满足大规模混合计算任务的调度方法,搭建AI科研创新的基石与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 疾病保险课件教学课件
- 2024年度影视版权许可协议
- 04年影视制作委托合同
- 2024年度办公楼照明系统灯具更换外包协议
- 2024年度“生态修复”工程咨询服务合同
- 制作课件教学课件
- 2024年广告发布与装修施工合同协议
- 2024在熔盛重工与淡水河谷砂石船建造合同签约仪式上的致辞熔盛重工朱文花
- 2024年度暖通设备安装及调试合同
- 2024土地使用权转让合同(含开发权)
- 黄河商品交易市场介绍稿
- Unit 3 My friends Part C Story time(教学设计)-2024-2025学年人教PEP版英语四年级上册
- 2024中国海油校园招聘2024人(高频重点提升专题训练)共500题附带答案详解
- 孙中山诞辰纪念日主题班会主题班会
- 2024年安徽省合肥市中考语文题卷(含答案)
- G -B- 43630-2023 塔式和机架式服务器能效限定值及能效等级(正式版)
- 24春国开电大《工具书与文献检索》平时作业1-4答案
- 文艺复兴经典名著选读 知到智慧树网课答案
- 2024年北京出版集团有限责任公司招聘笔试冲刺题(带答案解析)
- 2022-2023学年福建省厦门一中九年级(上)期中物理试卷
- 足球球性球感练习教案
评论
0/150
提交评论