版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
绪
论
全套可编辑PPT课件
o
大模型基本概念o
大模型发展历程o
大模型关键技术及训练流程l
大模型关键技术l
大模型训练流程o
内容安排22
目录全套可编辑PPT课件
延伸阅读:迎接大模型时代:大模型发展简史及攻略0引言作为人工智能全球顶级专家,陆奇自今年以来,以“大模型带来的变革和机会”为主题,先后在上海、深圳、北京等城市发表了多场演讲,进一步引发了业界对大模型的关注和思考。本文基于对陆奇演讲内容的理解,对大模型的划时代意义、发展过程和分类进行了体系化的梳理,希望能帮助读者更全面、准确地认识大模型。同时尝试梳理并回答大模型如何打造,如何评价、如何实现商业变现等问题,希望能给读者一些启发。1大模型正在开启一个新的时代大模型(LLM)狭义上指基于深度学习算法进行训练的自然语言处理(NLP)模型,主要应用于自然语言理解和生成等领域,广义上还包括机器视觉(CV)大模型、多模态大模型和科学计算大模型等。ChatGPT的火爆吸引了全世界对大模型的关注,比尔·盖茨表示,ChatGPT的诞生意义不亚于互联网的出现;陆奇在报告中称之为“ChatGPT时刻”。1.1从云时代向大模型时代进化信息社会先后经历了计算机、互联网、移动互联网和云计算等重要阶段;ChatGPT及一大批类似大模型的发展,标志着信息社会进入了大模型主导的新阶段。根据陆奇提出的“信息-模型-行动”系统分析范式框架,计算机、互联网、移动互联网和云计算这四个标志性技术都是实现了信息获取的边际成本无限趋近零。大模型热潮标志着新拐点即将到来,社会各界获取模型的总成本将逐渐趋近固定成本,预示着模型将无处不在,万物都将成为它的载体。未来,自动化行动将成为新的拐点,人在物理空间内“行动”的代价转向固定,人将与数字化技术构建出一个全新的智能系统,实现信息、模型和行动的无缝衔接。这意味着人不再通过获取信息,利用人脑分析,自己去行动,而是智能系统自动获取低成本信息(数据),利用大模型,形成指令驱动各类系统(包括机器人)采取行动,从而对整个社会产生深远的影响和冲击,各类数字化系统也将基于大模型形成互联互通。1.2大模型时代的三大革命性变化大模型推动弱人工智能向通用人工智能(AGI)跃升。2023年2月,OpenAI在ChatGPT成功的基础上,发布了通用人工智能路线图,建议逐步向AGI普及的世界过渡,让大众、政策制定者和研究机构有时间了解AGI技术带来的改变。谷歌也指出未来数年AGI将会得到普及,各种应用领域中的智能系统将具备与人类认知能力相持平的智力水平,能够胜任多种复杂任务。大模型推动生产力从算力向机器智力跃升。生产力的变革是推动人类社会进步的根本动力,从原始社会、农业社会、工业社会到信息社会,背后是人力、畜力、电力到算力的跃升。随着大模型成为新的物种,机器智力将成为新的主流生产力。机器智力是智能算力与人类知识的扩展、集成和融合,大模型是机器智力的载体。随着大模型的不断进化和普及,其将成为经济社会的主流生产工具,重塑经济社会的生产方式,全面降低生产成本,提升经济效益。大模型推动数字社会向智能社会跃升。首先是AI特别是AGI产业高度发展,带动智能算力相关基础设施投资,并基于大模型衍生出多种新业态和新市场,成为经济增长的核心引擎。以智算中心为例,一个单位的智算中心投资,可带动AI核心产业增长约2.9-3.4倍、带动相关产业增长约36-42倍。GPT等各种大模型是人工智能时代的“操作系统”,将重构、重写数字化应用。其次是有了AGI的加持,人类的能力和活动范围都将得到大幅提升,进一步从重复性的脑力劳动中解放出来。但是,需要注意到,大模型的普及也会给现有的教育、就业、舆论甚至全球的政治格局带来冲击,是需要政府和产业界共同研究的问题。2大模型发展的三个阶段和三次飞跃大模型发展主要经历了三个阶段,分别是萌芽期、探索沉淀期和迅猛发展期(如图1所示)。图1AI大模型发展的三个阶段2.1萌芽期(1950年-2005年):以CNN为代表的传统神经网络模型阶段1956年,从计算机专家约翰·麦卡锡提出“人工智能”概念开始,AI发展由最开始基于小规模专家知识逐步发展为基于机器学习。1980年,卷积神经网络的雏形CNN诞生。1998年,现代卷积神经网络的基本结构LeNet-5诞生,机器学习方法由早期基于浅层机器学习的模型,变为了基于深度学习的模型,为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后续深度学习框架的迭代及大模型发展具有开创性的意义。2.2探索沉淀期(2006年-2019年):以Transformer为代表的全新神经网络模型阶段2013年,自然语言处理模型Word2Vec诞生,首次提出将单词转换为向量的“词向量模型”,以便计算机更好地理解和处理文本数据。2014年,被誉为21世纪最强大算法模型之一的GAN(对抗式生成网络)诞生,标志着深度学习进入了生成模型研究的新阶段。2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构,奠定了大模型预训练算法架构的基础。2018年,OpenAI和Google分别发布了GPT-1与BERT大模型,意味着预训练大模型成为自然语言处理领域的主流。在探索期,以Transformer为代表的全新神经网络架构,奠定了大模型的算法架构基础,使大模型技术的性能得到了显著提升。2.3迅猛发展期(2020年-至今):以GPT为代表的预训练大模型阶段2020年,OpenAI公司推出了GPT-3,模型参数规模达到了1750亿,成为当时最大的语言模型,并且在零样本学习任务上实现了巨大性能提升。随后,更多策略如基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现,被用于进一步提高推理能力和任务泛化。2022年11月,搭载了GPT3.5的ChatGPT横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网。2023年3月,最新发布的超大规模多模态预训练大模型——GPT-4,具备了多模态理解与多类型内容生成能力。在迅猛发展期,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。如ChatGPT的巨大成功,就是在微软Azure强大的算力以及wiki等海量数据支持下,在Transformer架构基础上,坚持GPT模型及人类反馈的强化学习(RLHF)进行精调的策略下取得的。3不断进化的大模型家族大模型作为新物种,一直在快速进化,目前已经初步形成包括各参数规模、各种技术架构、各种模态、各种场景的大模型家族(如图2所示)。图2大模型谱系图从参数规模上看,大模型经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段。据统计,每年参数规模至少提升10倍,实现了从亿级到百万亿级的突破。目前千亿级参数规模的大模型成为主流。从技术架构上看,Transformer架构是当前大模型领域主流的算法架构基础,其上形成了GPT和BERT两条主要的技术路线,其中BERT最有名的落地项目是谷歌的AlphaGo。在GPT3.0发布后,GPT逐渐成为大模型的主流路线。综合来看,当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式,如百度文心一言,阿里发布的通义千问等。从模态上来看,大模型可分为自然语言处理大模型,CV大模型、科学计算大模型等。大模型支持的模态数量更加多样,从支持文本、图片、图像、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。从应用领域来讲,大模型可分为通用大模型和行业大模型两种。通用大模型是具有强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于AI完成了“通识教育”,ChatGPT、华为的盘古都是通用大模型。行业大模型则是利用行业知识对大模型进行微调,让AI完成“专业教育”,以满足在能源、金融、制造、传媒等不同领域的需求,如金融领域的BloombergGPT、法律领域的LawGPT_zh,以及百度基于文心大模型推出的航天-百度文心、辞海-百度文心等。4大模型开发之道目前大模型的开发主要有两种路径,一种是从头构建完整大模型;另一种是在开源的通用大模型之上调优。前者所需数据、算力、时间投入较大,但大模型的性能更为突出。后者模型的参数和能力受限于开源模型,但成本较低,可以快速形成所需的大模型。4.1路径一:从头构建完整大模型构建完整大模型一般分为四个步骤(如图3所示):图3完整大模型的主要开发步骤首先是训练构建基座模型。基座模型已经初步具备良好的知识框架和认知能力,但需要复杂指令的准确引导才可以生成正确内容,因而一般不能直接用于作为日常交互。从模型算法角度看,目前主流的GPT类基座模型均基于Transformer的decoder思路设计。从数据角度看,基座模型是实现涌现能力(参数达到一定规模时出现意想不到的能力)的基础,训练需要用到大量的数据,GPT3.0用到了45TB的文本语料,GPT4中还增加了图像数据等。从算力资源角度看,训练一个基座模型需要大量的算力和较长周期,为了提高效率,ChatGPT用到了近万张英伟达A100的GPU卡。基座模型可以理解为小孩已经生硬地背了大量古诗,但还不会熟练运用。你跟他说“举头望明月”,他能对出“低头思故乡”。但你让他背一首“思乡”的诗,他就不会了。其次是策略精调。目的是让模型具备适用性,能与人类正常交流,即让基座模型理解用户想问什么,以及自己答的对不对。这个环节主要通过高质量的人工标注<指令,答案>(即prompt工程)优化模型。ChatGPT的标注数据集主要由一个30-50名OpenAI员工组成的团队和从第三方网站雇佣的50-100名标注员共同完成。这个过程可以理解为老师给学生上课,讲解很多诗句的含义。引导他看到“孤独(prompt)”可以写“拣尽寒枝不肯栖,寂寞沙洲冷(答案)”,看到“豪情(prompt)”,可以写“愿将腰下剑,直为斩楼兰(答案)”第三步是训练一个独立于基座模型的判别模型,用来判断模型生成结果的质量,为下一步的强化学习做准备。由专门的标注人员对模型生成的结果按照相关性、富含信息性、有害信息等诸多标准进行排序,然后通过判别模型学习标注好排名的数据,形成对生成结果质量判别能力。这一步是为小朋友培养一个伴读。通过给定一组题目(prompt),让小朋友为每一个题目写多篇古诗。由老师为每一首诗打分(结果标注),然后将结果告诉伴读。伴读需要学会判断哪首诗更符合题目,写的更有意境。最后一步是利用奖励机制优化基座模型,完成模型的领域泛化能力。本阶段无需人工标注数据,而是利用强化学习技术,根据上一阶段判别模型的打分结果来更新内容生成模型参数,从而提升内容生成模型的回答质量。(第三和最后一步相当于大人去纠正小孩对话,告诉孩子哪句话是对的,哪句话不能这么回答,比如“爸爸好不好?”,回答“爸爸是坏蛋”就要进行“惩罚”,回答“爸爸很好,我很喜欢爸爸”就比较符合要求。类似的做法,实际的工作比这个要复杂的多,需要大量的专家投入)。这一步则是让伴读提升小朋友的水平,而老师则可以休息了。伴读告诉小朋友,如果用“未若柳絮因风起”描写雪则可以有糖葫芦吃,如果用“撒盐空中差可拟”描写则没有糖吃。通过反复练习,最后就可以培养出一位“能诗会赋”的高手(成品大模型)。4.2路径二:基于开源通用大模型的调优基于开源通用大模型进行调优是低成本的选择,也是大模型下游玩家最常见的选择,利用开源大模型,玩家可在1张高性能显卡中,约5小时就可完成包含200万条数据的参数微调。参数高效微调方法是目前业界主流的调优方式,在保持原有大模型的整体参数或绝大部分参数不变的情况下,仅通过增加或改变参数的方式获得更好的模型输出,影响的参数量可仅为大模型全量参数的0.1%以下,典型代表为微软提出的LoRA技术。5大模型评测之法短短几个月,国内外AI大模型数量激增,良莠不齐,尤其如何对开源大模型进行评估成为新的课题,对于开源大模型选择、促进大模型的发展具有非常重要的价值。未来,对于2B客户来说,需要从诸多行业大模型选择适合自己需要的大模型,第三方独立评估结果具有重要的参考价值。目前业界还没有形成统一的权威第三方评测方法,主要的评测手段有两类:一类是深度学习常用的语言理解数据集与评测指标,即通过运行标准的数据集,来评测大模型的深度学习性能,常用的指标有准确率、召回率等。Meta、谷歌和华盛顿大学等合作推出的SuperGLUE(超级通用语言理解评估)包含7个任务的集合,能够测试大模型在回答问题和常识推理等多方面的能力。另一类是面向大模型的文本生成、语言理解、知识问答等能力,设计专门评估指标体系,然后通过提问(prompt)的方式,根据生成的结果对模型进行评价。具体操作上又分为人工评测和裁判大模型评测两种方式,人工评测由语言学家和领域专家根据主观判断来评价模型各个指标的表现,如OpenAI等机构邀请研究人员评测GPT系列模型;科大讯飞牵头设计了通用认知大模型评测体系,从文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力这7个维度481个细分任务类型进行评估。裁判大模型评测是指用一个较强大的语言模型来评测其他语言模型。例如,用GPT-4模型作为“老师”,通过“老师”出题及评判其他模型的答案来实现机器评测。北大和西湖大学开源的裁判大模型pandaLM也实现了自动化、保护隐私和低成本的评估方式。上述三种方式各有优缺点,语言理解数据集适用于初步评估大模型的基本性能,如翻译质量、语言表达能力等;人工评测适用于评估大模型的高层语言表达能力、情感理解力和交互性能等;机器裁判评测适用于对大规模数据和模型进行快速评测,评估大模型的稳定性和一致性。6大模型商用之路6.1模型即服务(MaaS)成为确定的商业模式与互联网或移动互联网发展初期没有成熟的商业模式相比,大模型自带光环,迅速形成了MaaS模式。具体来看,应用场景、产品形态及盈利模式主要有以下几类:A.互联网应用或SaaS应用:直接向终端用户提供大模型SaaS应用产品,通过订阅模式、按生成内容的数量或质量收费、按比例分成等模式实现盈利,例如Midjourney提供每月10美元和30美元两种会员收费标准;ChatGPT对用户免费,但ChatGPTplus收费20美元/月。B.“插件”(Plugin):大模型可集成加载第三方应用产品插件,大大拓展了大模型的应用场景,吸引更多用户,例如ChatGPTPlugins,大量餐饮、商旅网站和App通过插件加载集成到ChatGPT,增强了ChatGPT的功能和体验,用户不是简单地聊天,而是可以一站式实现综合任务,例如出差或旅游,大模型可以帮忙订机票,订酒店,订饭店和租车等等。C.自有应用重构:将自研的大模型能力直接内置嵌入自有应用,增强智能辅助和高效交互,为自有应用引流增加收益,例如微软将GPT-4深度集成到Office、Bing等系列产品,功能要强大的多,例如搜索可以对话式获取更聪明精确和综合的答案,office可以为辅助客户撰写PPT和文档,只需说出需求,ChatGPT即可快速生成一份模板化文档,大差不差,稍作修改即可使用,大大提升了工作效率。D.开放API:大模型平台开放API,为开发者提供可访问和调用的大模型能力,按照数据请求量和实际计算量计费,开发者可以根据需要开发定制功能和应用,国内一些ChatGPT小程序和web应用就是基于ChatGPT的API外包一层UI提供的,国内商汤“日日新”大模型也为用户开放API接口;E.大模型云服务:基于大模型和配套算力基础设施提供全套模型服务,如为客户提供自动化数据标注、模型训练、提供微调工具等以及增量支撑服务,按照数据请求量和实际计算量计费,例如AzureOpenAI服务,客户可开发训练自己的大模型,未来不提供大模型框架、工具和数据集处理能力的云将很难吸引客户“上云”;F.解决方案:提供定制化或场景化的行业应用解决方案,按具体项目实施情况收费,例如科大讯飞智能客服解决方案,这种按项目和解决方案部署AI和大模型应用适用于行业大客户,投入成本较高。A、B、D可依托第三方大模型能力快速开展业务,但同时失去对数据的掌控,B和D通过开放促进大模型应用生态发展,ChatGPT实现从聊天工具到类OS的跃升;C门槛较高,需要自主研发或部署大模型,掌控大模型能力,但可以深度提升应用能力;E主要面向有模型自主开发需求的客户;F主要面向2B客户,可通过私有化部署保障数据安全。未来,大模型与机器人、智能设备等硬件结合(大模型拥有“手脚”),将为商业模式创新带来更广阔的空间。6.2率先重构互联网、金融、传媒、教育等行业陆奇认为,要判断大模型在一个行业的发展机会,需要考虑模型能力在该行业的提升速度、三位一体(信息,模型,行动)体验程度以及能否对该领域的研发体系带来突破性进展。具体来看,大模型将率先在互联网、金融、传媒、教育等知识密集度高的行业快速渗透(如图4所示)。图4AI大模型行业渗透趋势[1]纵轴主要根据OpenAI对该行业通过运用大模型和/或嵌入大模型能力的应用能至少节省50%完成时间的工作任务占全部工作任务的比例判断,横轴大模型行业渗透时间主要根据麦肯锡对我国行业数字化程度的评估进行判断。当前大模型已在搜索、办公、编程等互联网信息服务行业建立标杆,如微软NewBing引入GPT-4能力实现对话及复杂搜索、总结资料生成答案、发挥创意提供方案等,提升用户信息检索效率,这一点类似公有云初期主要在互联网领域应用。中期内,大模型将作为创作必备辅助工具在传媒、教育等行业进行应用推广,如全球范围内已有超300万用户使用OpenAIDALL·E模型绘图,每天创建的图片数量达到400万张;在教育领域,基于大模型的AI智能助手可为学生提供更具个性化、情景化的学习材料,如科大讯飞学习机引入星火大模型能力辅助中小学生写作。未来,大模型在医疗、交通、制造等行业的长期渗透潜力大。当前医疗、交通、制造等专业领域正积极探索大模型应用场景,如中文医疗语言大模型“商量·大医”通过多轮对话辅助支持导诊、问诊、健康咨询等场景;百度基于交通大模型的全域信控缓堵方案可实现15-30%的效率提升;华为盘古大模型在矿山、电力等领域通过“预训练+微调”方式打造细分场景模型方案,如煤矿场景下可降低井下安全事故90%以上。未来随着行业数字化程度进一步提升、人工智能治理法律法规进一步完善,大模型在上述领域的应用将迎来爆发。6.3以大模型为中心的生态加速构建首先,大模型逐渐发展成为新型基础设施,为上层行业应用开发和开源生态提供低成本技术支撑,形成以大模型为中心的产品生态。大模型作为一种通用智能助手和交互手段,将重构现有大部分应用产品的交互方式和使用体验,如微软基于GPT-4能力的GitHubCopilotX、Microsoft365改变用户原有编程、创作方式,用户仅需通过自然语言对话方式便可生成内容,当前谷歌、微软、阿里等头部企业陆续将大模型能力应用至各种产品中构建以模型能力为核心的产品矩阵。随后,大模型开源将促进新开发生态的形成,实现“智能原生”。开发者可以基于开源模型利用专有数据资料在本地进行开发训练,如加州大学伯克利分校、CMU、斯坦福大学、加州大学圣地亚哥分校的研究人员联合推出Vicuna,达到OpenAIChatGPT90%以上水平,训练成本仅需300美元。开源模型解决了大模型可扩展的问题,同时将大模型的训练门槛从企业级降低到消费级,个人开发者利用电脑设备均能基于开源大模型进行定制化、本地化训练。未来基于开源大模型的定制版或将部署在云、边、端各个环节,带来云端和多云应用的重构和联结。o
大模型基本概念o
大模型发展历程o
大模型关键技术及训练流程l
大模型关键技术l
大模型训练流程o
内容安排3
目录延伸阅读:人工智能大模型综述及展望0引言人工智能的迅速发展为人类社会带来了巨大的变革。经过多年的发展,人工智能已经进入了大规模产业应用阶段,在金融、安防和医疗等多个领域实现应用。从模型发展来看,人工智能经历了机器学习模型、深度学习模型、预训练模型和大规模预训练模型4个阶段。在人工智能研究的早期阶段,传统的机器学习模型依赖于手工制作特征和统计方法。2014年以来,深度学习模型如卷积神经网络(CNN)[1]、循环神经网络(RNN)[2]、图神经网络(GNN)[3]等被广泛应用于各种人工智能任务。深度学习模型需要大量标记数据进行训练才能达到良好性能,然而手工标记数据耗时耗力,并且特定任务领域的数据往往比较稀缺,限制了深度学习模型的应用。此外,在有限的数据量下,当参数量增加时,模型容易出现过拟合问题,难以泛化到不同的任务领域。为了减少数据集构建的工作量,提升模型的领域迁移能力,研究者提出使用基于大规模数据集训练的模型来处理不同的任务。预训练模型(PretrainedModel,PM)提供了一种基于预训练和微调的两阶段解决方案:在预训练阶段,模型从大规模无监督数据中学习领域知识;在微调阶段,只需要少量的标注数据,就可以将预训练阶段学到的领域知识转移到特定任务中,无需从头开始训练模型,也不需要耗费大量的时间和精力进行数据标注工作,从而提高模型的泛化能力。预训练模型首先应用于计算机视觉(ComputerVision,CV)领域。大规模图像数据集,如ImageNet[4]的出现为图像预训练模型提供了数据基础。通过预训练,模型能够学习到大量的视觉知识,只需要在少量的任务相关数据集上进行微调,即可在图像分类、目标检测和场景分割等下游任务中取得良好表现。随着预训练模型在CV领域取得成功,类似的研究也在自然语言处理(NaturalLanguageProcessing,NLP)领域进行。早期的深度语言模型采用Word2Vec[5]等浅层网络,然而浅层网络无法捕获单词和句子中的上下文信息。基于RNN的模型能够结合上下文信息,然而随着模型层数加深,容易出现梯度消失和梯度爆炸问题。Transformer的出现使得在NLP领域构建深度模型变得可行。此后,预训练模型在NLP领域取得了一系列突破,在多个下游任务上取得了先进性能,超越了传统的深度学习模型。人工智能技术的三大要素包括数据、算法以及算力,这三者的有机结合共同构建了模型。近年来,传统的“特定任务特定模型”的构建模式逐渐被“一个大规模预训练模型适用于多个下游任务”的模式取代。在这种新模式中,大规模预训练模型也被简称为大模型。研究人员设计先进的算法,并借助海量算力和大规模计算系统的支持,为不同需求的用户训练大模型,以服务于各类人工智能应用。最近,人工智能生成内容(AIGeneratedContent,AIGC)引起了广泛关注。AIGC是指基于人工智能模型,通过大量数据学习和模型训练,根据输入的指令,生成文字、图像和音频等相关内容的技术。AIGC技术的广泛应用得益于大模型的快速发展。2018年,谷歌提出BERT[6],模型参数量达到3亿;2019年2月,OpenAI推出15亿参数量的GPT-2[7];2020年6月,OpenAI继续推出1750亿参数量的GPT-3[8]。GPT-3在多个下游NLP任务上表现良好,尤其是在生成任务方面表现突出。GPT-3促进了大规模预训练模型的研究,模型的参数规模从数十亿迅速增长到千亿,并且仍然保持快速上升的趋势。通过不断扩大模型参数,研究人员正在尝试探索其性能提升的极限。本文概述了大模型的发展历程以及代表性的大模型算法,介绍了大模型的基础架构及其核心原理,分析了大模型的特点,讨论了大模型的局限性以及未来发展方向。1大模型发展概况本节将分别简述语言模型和视觉模型的发展,并介绍具有代表性的大型语言模型和大型视觉模型。从模型发展历程来看,大模型的发展先后经历了机器学习模型、深度学习模型、预训练模型和大规模预训练模型4个阶段。目前,大规模预训练模型的参数量已经突破了万亿级。1.1语言模型发展概况语言模型(LanguageModel,LM)是完成NLP领域各种下游任务的基础。早期的语言模型通过统计方法预测词的概率,对于一个长度为N的词序列s,其概率可以表示为:P(s)=P(w1)P(w2|w1)…P(wN|w1w2…wN-1),(1)式中:P(wi)为第i个词出现的概率,P(s)为在给定前i-1个词的情况下第i个词出现的概率。当词序列较长时,式(1)的计算量较大,模型难以学习,因此研究者采用N元模型对上述公式进行近似计算:P(wt|w1w2…wt-1)≈P(wt|wt-k…wt-1)。(2)N元模型在估算条件概率时,只需要对当前词的前N-1个词进行计算,然而,N元模型缺乏对句子的长期依赖建模能力,并且随着N增大,参数空间呈指数增长,限制了模型在大语料库上的建模能力。为了解决这个问题,研究者提出了神经网络模型。2003年,Bengio等[9]提出了前馈神经网络(FFNN)来学习单词的分布式特征表示,通过将单词投影为低维向量,减少了模型的计算复杂度。然而,FFNN只能处理固定长度的单词序列。随后,Mikolov等[10]提出了RNN,可以处理变长的词序列。然而RNN模型在训练过程中容易出现梯度爆炸和梯度消失问题。Sundermeyer等[11]提出了长短期记忆RNN模型(LSTM-RNN),它能够学习到单词序列的长期依赖关系,并且能够有效地缓解梯度消失和梯度爆炸问题。1.2预训练语言模型发展概况尽管神经网络模型在NLP领域取得了一定的成功,但与CV领域相比,性能提升相对较小。主要原因在于大多数NLP任务的监督数据集规模较小。由于神经网络模型通常具有较深的网络结构,因此在小数据集上容易发生过拟合,并且泛化性能较差,难以在各种下游任务中应用。得益于大规模图像数据集ImageNet的发展,预训练技术在CV领域得到广泛应用,缓解了深度视觉模型在下游任务上的迁移问题。为了解决语言模型过拟合和泛化性差的问题,研究者将预训练技术引入到NLP领域。首先在大规模文本语料库上进行模型预训练,然后针对不同的下游任务在较小的数据集上进一步微调,经过预训练的模型性能远远优于随机初始化的模型。Word2Vec[5]首先在不同的NLP任务中验证了预训练技术的有效性。Dai等[12]提出了利用LSTM初始化语言模型的方法,提升了模型在多个文本分类任务中的训练速度和泛化能力。Ramachandran等[13]提出了无监督预训练的Seq2Seq模型,使用预训练权重初始化编码器和解码器,然后在下游数据进行微调,从而显著改善模型的泛化性能。然而,上述模型学习到的词嵌入与上下文无关,因此在迁移到下游任务时仍需要对模型进行重新训练和调整。为了解决这个问题,研究者开始在句子级别以上的层次进行预训练。Sarzynska-wawer等[14]提出了嵌入语言模型(EmbeddingsfromLanguageModels,ELMo),采用正向和反向的双层LSTM编码器结构,学习词的上下文语义表示。ELMo在多种NLP下游任务上带来了巨大的改进。然而,ELMo通常被用作特征提取器,生成上下文词嵌入向量,并将其输入到下游主模型中,而模型的其他部分仍需从头开始训练。近年来,基于Transformer架构的预训练模型(PTM)出现,并能够学习到通用的语言表示。通过在大规模语料库上进行预训练,模型初始化得到了改善,避免了从头开始训练模型,加快了模型在目标任务上的收敛速度,并能更好地泛化到各种下游任务,从而避免了在小数据集上的过拟合问题。随着计算机算力的提升、更深层模型的出现以及训练技巧的增强,PTM架构的深度和参数量也在不断增加。1.3语言大模型发展概况语言大模型(LLM)是指参数量在十亿及以上的大型预训练语言模型。在大规模文本语料数据库和自监督预训练技术的加持下[15],LLM显示了强大的通用语言表示能力,并且在解决复杂任务时展现出卓越的性能。LLM的快速发展给人工智能领域的研究带来了革命性的变化,吸引了越来越多研究者的关注。从图1可以看出,GPT-1[16]发布后,与LLM相关的arXiv论文急剧增加。图1arXiv论文累计数量趋势Fig.1ThetrendsofcumulativenumbersofarXivpapers2018年,谷歌提出了大规模预训练语言模型BERT[6],采用自编码(Autoencoding)方式进行预训练。BERT首先通过自监督预训练学习文本表示,然后基于掩码语言模型(MaskedLanguageModel,MLM)和下一句预测(NextSentencePrediction,NSP)学习单词和句子级的语义表示。BERT只需要针对特定的下游任务对输出层进行微调,即可在多个NLP任务中取得最先进水平,模型参数量首次超过3亿。谷歌在BERT基础上继续进行优化,使用更多的训练数据和训练资源,提出动态掩码调整策略,得到了精度更高的RoBERTa模型[17],在多个下游任务上达到最先进水平。2018年,OpenAI提出了生成式预训练模型GPT-1[16],GPT-1基于自回归模型进行预训练。不同于自编码模型通过掩码-重建方式预测单词的位置,自回归模型假定一个词在特定位置的概率分布是由之前所有词的分布决定的。因此,GPT的注意力是单向的,无法利用下文的信息。GPT-1采用无监督预训练和有监督微调的混合方法,对于不同任务采用不同的输出层,只需简单的微调便能取得非常好的效果。BERT和GPT-1的成功引起了语言大模型的研究热潮,由图2可以看出,GPT-1发布后,语言大模型的参数规模短时间内快速增长。2019年,OpenAI继续发布了GPT-2[7]。GPT-2采用与GPT-1类似的架构,参数规模增加到15亿,基于大型网页数据集WebText进行预训练。研究者认为,任何一个有监督NLP任务,都可以看成世界文本子集上的单词预测问题,只要预训练语言模型足够大,理论上就能解决任何NLP任务[18]。GPT-2通过无监督语言建模的形式进行多任务学习,采用语言文本作为格式化输入、输出和任务信息的统一表示,将解决任务的过程看作一个单词预测问题。GPT-2通过扩展模型的容量和数据多样性达到了良好性能,但由于模型尺寸相对较小,与最先进的有监督微调方法相比,总体性能较差。2020年,OpenAI发布了GPT-3[8]模型。GPT-3基于GPT-2扩展模型架构,参数量达到了1750亿,实现了模型参数量的飞跃提升。GPT-3引入了上下文学习的概念,指导模型以自然语言文本的形式理解任务。基于上下文学习,GPT-3的预训练目标和输出收敛到相同的语言建模范式:预训练根据上下文预测文本序列,下游任务通过上下文学习预测任务解决方案,然后将其格式化,并输出文本序列。GPT-3在多个NLP任务中表现出了非常出色的性能,在需要推理或领域适应能力的任务上也表现了出色的能力。以GPT-3模型为基础的人工智能对话系统ChatGPT在发布后吸引了社会对人工智能技术的广泛关注。由于GPT-3的强大性能,OpenAI将其作为基础模型开发更强的LLM。原始GPT-3模型的主要不足之一是缺少复杂推理能力,例如解决数学问题和生成代码。为了解决这个问题,OpenAI推出了Codex[19],基于大量GitHub代码库对GPT-3进行微调。Codex可以解决复杂的编程问题,解决数学问题的能力也得到极大提升[20]。在此基础上,OpenAI提出了GPT-3.5[21]模型,通过对比学习文本和代码嵌入,模型的复杂推理能力得到显著提升。InstructGPT[22]提出三阶段人类反馈强化学习(ReinforcementLearningfromHumanFeedback,RLHF)算法,通过强化学习引入人类监督以学习人类偏好,提高模型在NLP任务上的能力。GPT-3的训练语料大多来自于网络,可能包含大量错误的、恶意的、带有攻击性的“有毒”文本。RLHF算法能够有效缓解LLM产生危害内容的问题,使模型输出更安全、更有用、更符合人类想法的结果,实现LLM的安全部署。图2语言大模型规模变化趋势Fig.2ThetrendsoftheLLMscalechanges2020年,谷歌发布了T5模型[23],T5提出将NLP任务转换成Text-to-Text形式,使用相同的模型、训练和解码方式将所有NLP任务纳入一个统一框架。T5模型参数量达到110亿。在T5基础上,谷歌发布了Flan-T5[24],提出一套多任务的模型微调方案。通过在超大规模的任务上进行微调,Flan-T5表现出极强的泛化性能,在1800多个NLP任务上都有良好的表现。2021年,清华大学发布GLM模型[25],试图通过一个预训练框架统一NLP领域的三大类任务:自然语言理解、无条件生成和有条件生成。GLM提出了基于自回归空白填充的预训练框架,通过改进空白填充方式,在3类任务上实现了优于BERT、T5和GPT的性能,在不同下游任务上表现出极强的泛化性能。2022年,谷歌发布了PaLM模型[26],参数量突破千亿规模,达到5400亿。PaLM延续了语言大模型的优化路径,在7800亿个高质量文本的token上进行高效训练。PaLM在各种下游任务上超越了之前最先进的模型,这表明大模型的参数量提升还没有到达顶点,PaLM还表现出了零样本学习、语言理解和复杂推理的能力,充分展示了大模型的发展潜力。2023年2月,MetaAI发布了LLaMA模型[27],初始版本包括70亿、130亿、300亿和650亿4种规模。自发布以来,LLaMA引起了研究界和工业界的广泛关注。LLaMA模型在各种开放基准上取得了优异性能,已经成为迄今为止最流行的开源语言大模型。许多研究者通过指令微调或预训练来扩展LLaMA模型,由于相对较低的计算成本,基于LLaMA模型微调成为开发或定制专用模型的主流。Vicuna[28]是其中一种流行的LLaMA变体,使用从ShareGPT收集的用户共享对话数据进行训练,用GPT-4评测可以达到ChatGPT90%的水平。2023年7月,Meta开源了性能更强的LLaMA-2[29],LLaMA-2使用更大、质量更好的语料库进行训练,在模型性能、推理效率以及安全性等方面得到全面提升。LLaMA-2在40多个评测集上进行了全方位的评测,在学科、语言、知识、理解和推理五大维度,相比LLaMA-1都有明显提升。然而由于训练语料中的中文数据占比较少,LLaMA-2在中文能力上仍显不足;此外,LLaMA-2采用相对保守的安全对齐方案,导致模型的安全性和模型能力平衡较差。由于LLaMA系列模型的出色性能和可用性,许多多模态模型将其作为基础语言模型,以实现较强的语言理解和生成能力。LLaMA的发布极大地推进了大模型的研究进展。1.4视觉模型发展概况早期的视觉模型采用手工设计特征和机器学习方法解决图像分类等视觉问题。然而,手工设计特征局限于像素层面,损失了过多图像信息,导致模型的精度较低。与基于手工特征的方法不同,基于CNN的模型具有强大的特征提取能力和相对较低的计算复杂度。2012年,研究者提出了基于CNN架构的AlexNet[30],其在ImageNet图像识别挑战赛中的识别精度首次超越手工特征方法。在此基础上,VGGNet[31]证明了更深的网络结构能够有效提升模型精度。ResNet[32]提出在每个模块中添加残差连接,以解决深层模型的优化问题,同时引入了瓶颈块来减少参数数量。简单的实现和良好的性能使ResNet仍然是当今最常用的架构。此外,研究者探索了CNN模型的轻量化,MobileNets[33]提出了深度可分离卷积、反向残差块和神经架构搜索(NAS),以实现更好的精度-复杂度权衡。1.5预训练视觉模型发展概况随着Transformer架构在NLP领域大获成功,研究者开始探索将其应用到CV领域。视觉Transformer(VisionTransformer,ViT)[34]提出将图像分成一系列不重叠的图像块,然后通过线性变换将其投影为图像块嵌入编码,并添加位置编码标记图像块的位置。输入嵌入向量中添加了图像类别嵌入向量,三者结合共同作为ViT的输入,然后通过自注意力机制捕获图像之间的远程依赖性。ViT巧妙地将图片构造成patch序列,启发了研究者在CV领域正确使用Transformer的方式。实验表明,在大型数据集上预训练后,ViT能够实现较好的性能。经过精心设计的深度视觉模型能够处理各种下游视觉任务,在自动驾驶、智能监控和安防等领域有重要应用。然而,随着模型规模的不断扩大,针对特定任务进行数据收集和标注需要耗费大量时间和成本,模型训练需要消耗大量训练资源。为了解决这个问题,研究者引入预训练技术来学习通用的视觉表示,以减少训练资源的消耗和训练数据的收集成本。随着大规模图像数据集(如ImageNet)的出现,研究者开始探索CV领域的预训练模型。预训练视觉模型在海量图像数据集上进行预训练,得到通用视觉特征表示,然后基于较小的下游标注数据集对模型进行精细调整。在微调阶段,模型只需要消耗较少的训练资源就能取得比从头开始训练更好的性能。主流的预训练视觉模型包括ResNet[32]、ViT[34]、EfficientNet[35]和SwinTransformer[36]等。基于大规模视觉数据库,模型能够更有效地学习通用视觉特征表示,理解下游任务中的图像,从而提高模型在下游任务上的泛化性[37]。然而,预训练数据集和下游任务的特定数据集之间存在领域差异,导致模型的迁移能力仍有不足。1.6视觉大模型发展概况ViT首次将Transformer架构应用于CV领域,验证了Transformer作为统一视觉模型架构的可行性。在NLP领域,基于掩码语言模型(MaskedLanguageModel)的BERT模型引领了自监督预训练的学习范式。受此启发,2022年,He等[38]提出了视觉掩码自编码(MaskedAutoencoders,MAE)模型,MAE使用编码器-解码器(encoder-decoder)架构,在encoder部分,首先将图片构建成patch序列,学习图片的细粒度特征;在decoder部分,基于原始的图片token和掩码token对掩码图片进行重建。MAE对图像重建进行解耦,能够学习到更加有效的图像特征,基于像素点的重建目标能够避免监督信息的丢失,提高重建的质量。MAE能够在高达75%的掩码率下对图像进行重建,并且在下游的目标检测和语义分割任务等任务上有不俗的表现。基于MAE重建的图像虽然具有与原始图像相似的语义信息,但会出现严重的模糊与失真问题。为了解决这个问题,MIT提出MAGE[39],MAGE使用基于图像语义符图像掩码建模方法,首先使用VQGAN[40]编码器将原始图像转换为离散语义符,然后对其进行随机掩码,之后基于encoder-decoder结构对掩码进行重构,最后通过VQGAN解码器将重构后的语义符还原为原始图像。MAGE重建出的图像能够保持与原始图像一致的语义信息,还能保证生成图像的多样性与真实性,在多个图像生成与图像识别任务上都达到或超过了最先进水平,实现了图像生成和图像识别的统一框架。2022年,南京大学提出视频掩码自编码器(VideoMAE)[41],将预训练大模型扩展到视频领域,用于解决动作识别和动作检测等视频任务。VideoMAE采用带有时序间隔的采样策略来进行更加高效的视频自监督预训练,在输入到编码器中之前,对采样得到的视频片段采用时空联合的形式进行像素块嵌入,在自监督预训练的过程中采用管道式掩码策略,以解决由视频数据中的时序冗余性和时序相关性导致的“信息泄漏”问题。VideoMAE在多个下游任务上表现出良好的泛化能力和迁移能力,推动了后续基于Transformer的视频理解大模型发展。随后,南京大学团队提出了VideoMAEV2[42],研究VideoMAE的可扩展性,探索视频大模型在多种视频下游任务上的性能极限。VideoMAEV2的模型参数量达到了十亿级别,预训练数据增加到百万量级。VideoMAEV2在动作识别、时空动作检测、时序动作检测等多种下游任务上取得了先进的性能。图像分割是CV的一项核心任务,需要识别图像像素所属对象。2023年,MetaAI提出了通用图像分割模型SAM[43],SAM基于超过10亿个掩模的多样化、高质量大型分割数据集——SegmentAnything1-Billionmaskdataset(SA-1B)进行预训练,利用提示工程(PromptEngineering)处理下游分割任务[44],这使其能够泛化到从未见过的新对象和图像类型,且不需要对下游任务进行微调。SAM分为三部分:图像编码器、提示编码器和掩模解码器,这种结构可以有效地降低计算成本,增强模型灵活性和鲁棒性,实现了具有泛化性和通用性的分割模型。基于大规模预训练和提示工程,SAM学习到了分割对象的一般表示,可以分割任何图像或任何视频中的任何对象。SAM的通用性使其可以覆盖广泛的对象用例,甚至在新图像“域”(如水下照片或显微镜细胞)也能较好地完成分割任务。SAM-Track[45]提出了一种视频分割框架,该框架结合了Grounding-DINO、DeAOT和SAM,以实现跨多种模式的交互式和自动化对象跟踪和分割。该框架在视频第一帧中结合了点击提示、框提示和文本提示等形式的交互式提示来指导SAM的分割过程。随后,在接下来的框架中使用文本提示来进一步细化结果。这种多功能框架可应用于广泛的领域,包括无人机技术、自动驾驶、医学成像、增强现实和生物分析等。Painter[46]将自然语言中的上下文学习能力迁移到视觉任务中,可以根据输入提示自动切换任务功能,在语义分割、深度估计和姿态估计等任务中均取得了良好的泛化性能。在国内工业界,大模型发展也十分迅速。2021年4月华为发布了盘古大模型,参数量超过30亿,是当时最大的视觉预训练模型,盘古大模型在ImageNet1%、10%数据集上的小样本分类精度达到了业界最高水平。百度提出了170亿参数的视觉多任务模型UFO[47],在人脸、人体、车辆、商品和食物细粒度分类等多个CV任务上取得了先进水平。UFO提出了针对视觉多任务的训练方案,解决大模型参数量大、推理能力差的问题。视觉大模型已成为人工智能领域的一个发展趋势,然而,目前其性能仍然受到特定视觉领域知识的限制,缺少类似于ChatGPT这样一个现象级的模型应用。为了解决这一问题,未来的研究方向应当侧重于整合多样化的数据集,促进不同领域的专有模型融合,扩展模型知识的广度,以充分发挥视觉大模型的潜力。1.7视觉-语言大模型发展概况视觉-语言大模型是指利用视觉和语言数据之间的跨模态交互,学习视觉的一般特征,然后将其转移到下游的分类、检索、目标检测、视频理解、视觉问答、图像描述和图像生成等视觉任务的大模型。在Transformer架构[48]中,最小的特征单元是嵌入向量,这种特性使其非常适合处理多模态数据,因为嵌入层可以将任何模态的输入转换为嵌入向量。2021年,OpenAI提出视觉-语言大模型CLIP[49],CLIP收集了来自互联网的4亿个图像文本对的海量数据,利用图像和文本之间的关联性,基于对比学习进行弱监督预训练。基于人工设计的提示(prompt),CLIP在下游任务上可以实现零样本预测,并且实现了最先进的少样本预测性能。CLIP展示了大模型学习通用视觉-文本表示的能力,验证了文本-图像结合的大规模弱监督预训练的有效性。在此基础上,许多大型视觉-语言模型,例如Clip4clip[50]、ActionCLIP[51]等得到进一步发展,为通用视觉-文本表示的发展提供了新的见解。2022年,Salesforce提出BLIP[52],BLIP通过联合训练视觉和语言模型来提升多模态任务的性能。BLIP引入了的多模态混合编码器-解码器结构(MultimodalMixtureofEncoder-Decoder,MED),通过3个损失函数进行多任务联合预训练。BLIP在图像-文本检索、图像标题、视觉问答、视觉推理和视觉对话等多个下游任务上取得了良好的性能。传统的多模态视觉任务(如VQA)中包含文字和图像理解内容,如何将它们结合起来,是一个重要问题。Flamingo[53]提出“以视觉为prompt,输出文本预测”的框架,将多模态任务转化为文本预测任务。Flamingo通过冻结预训练视觉模型和预训练语言模型的参数充分保留单模态的大模型知识,可以处理任意交错的视觉和文本数据序列,无缝使用图像或视频作为输入。Flamingo在多个下游任务上表现出极强的少样本学习能力。BLIP-2[54]提出了更简洁的预训练方法,利用现有的单模态视觉和文本预训练模型,以减少计算成本,避免灾难性遗忘问题。BLIP和BLIP-2是视觉语言-预训练领域取得的重要进展,为多模态任务的研究提供了新的思路和方法。2023年3月,GPT-4[55]正式发布,它将文本输入扩展到多模态输入。GPT-4解决复杂任务的能力比GPT-3.5更强,在许多评估任务上表现出较大的性能提升。由于GPT-4未开源,MiniGPT-4[56]基于BLIP-2对GPT-4进行复现。MiniGPT-4采用BLIP-2预训练好的Q-Former作为视觉编码器,Vicuna[28]作为语言编码器,然后通过一个线性层将视觉特征映射到Vicuna的特征空间,MiniGPT-4首先采用图像文本对数据集进行预训练,然后构建了一个高质量的图像文本数据集来进行微调。相较于BLIP-2,MiniGPT-4提升的关键在于采用了更好的LLM,同时采用了高质量数据集进行微调。但MiniGPT-4也存在一定的局限性,比如无法从图像中获取细粒度的信息以及无法识别位置信息。PaLM-E[57]提出具身多模态语言模型,使得模型具备具身推理能力。视觉指令调整(VisualInstructionTuning)[58]构建了多模态的图文指令数据库,并提升了模型在新任务中的零样本迁移能力。良好的视觉特征表示对于解决下游视觉任务(图像检索、图像分类、视频理解)至关重要,然而,学习视觉特征表示依然严重依赖于大规模视觉监督数据集。为了解决这个问题,谷歌提出了ALIGN模型[59],使用超过10亿图像文本对的噪声数据集,基于对比学习损失,来学习对齐图像文本对的视觉-语言表示。ALIGN证明了大规模的语料库可以掩盖数据内部存在的噪声,只使用简单的学习方式,模型也能学习到良好的特征表示。视觉-语言大模型研究方兴未艾,还存在许多挑战和潜在的研究方向。Transformer的出现使得图像和文字可以通过相同的方式进行学习,若采用统一的Transformer架构同时处理图像和文字输入可以有效提升预训练的效率;目前大多数视觉-语言模型仅使用单一语言进行预训练,采用多种语言文本进行预训练可以提高模型在不同语言环境下的泛化性;此外,视觉语言模型的高效轻量化也是值得探索的方向。2大模型架构2017年,谷歌提出了Transformer架构[48],由于其出色的模型容量和并行能力,Transformer已经成为开发各种大模型的标准骨干模型,基于Transformer架构可以将大模型扩展到数百亿甚至数千亿参数规模。2.1多头自注意力机制自注意力(SelfAttention,SA)是Transformer中的基本模块。SA通过3个可学习的线性映射矩阵WQ,WK,WV将输入序列投影为一组维度为C的查询Q、键K和值V,然后通过以下公式计算得到自注意力权重:(3)通过对输入序列进行线性变换,SA能够捕捉输入序列的语义特征和远距离的依赖关系。多头自注意力(Multi-headSelf-Attention,MSA)是自注意力的扩展,由n个自注意力头构成,通过并行实现注意力操作,经过线性投影层后将所有自注意力头的输出进行拼接:MSA(Q,K,V)=Concat(SA1,SA2,…,SAn)*WO,(4)式中:WO表示线性变换矩阵,SAn表示第n个自注意力头的输出。2.2Transformer架构Transformer的模型架构如图3所示,由多个编码器和解码器叠加构成,每个编码器由2个基本模块组成,即MSA模块和前馈全连接(FeedForwardNetwork,FFN)模块。MSA模块利用自注意力机制学习输入序列内部的相关关系,FFN模块包含激活函数和2个线性层,MSA模块和FFN模块均使用残差连接和层归一化(LayerNormalization,LN)结构。给定输入序列x0,第k个编码器的输出如下:(5)式中:xpos表示位置嵌入,xk表示第k个编码器的输出。解码器与编码器的结构稍有不同,由2个多头自注意力模块和一个前馈全连接模块组成,其中一个MSA模块增加了单向注意力掩码,使得输入嵌入向量只能关注过去的嵌入向量和它本身,确保预测结果只依赖于已生成的输出词元,然后,掩码多头注意力模块的输出和编码器的输出通过第二个MSA模块进行处理。图3Transformer架构示意Fig.3SchematicdiagramofTransformerarchitecture视觉Transformer的结构与原始的Transformer类似,输入由一维语言嵌入序列改为二维图像块的向量,然后使用线性层将向量投影为图像块嵌入编码,添加位置编码标记图像块的位置。输入嵌入向量中还添加了类别嵌入向量,三者结合共同作为视觉Transformer的输入。Transformer架构有效解决了长序列输入的长时依赖问题,模型的并行性提高了训练效率,有效缓解了模型过大导致的梯度消失和梯度爆炸问题,在NLP和CV领域的多个任务中取得了良好效果,为大模型的快速发展奠定了基础。3大模型特点目前,大模型主要基于深层的Transformer架构进行构建,采用和较小的预训练模型类似的预训练目标。然而,大模型表现出较小的预训练模型不具有的特点。本节将讨论大模型的特点并探究背后的机理。3.1大模型的扩展定理广泛的研究表明,扩展训练数据大小或模型大小可以很大程度上提高大模型的能力[7-8,60]。语言大模型可以更好地根据上下文理解自然语言并生成高质量的文本。视觉大模型可以学习到通用的视觉表示并泛化到新的图像域。大模型这一能力提升可以部分通过扩展定律来描述,即模型性能大致随着模型大小、数据大小和总运算量的增加而提高[60]。GPT-3[8]和PaLM[26]通过将模型大小分别增加到1750亿和5400亿来探索扩展定理的极限。然而,现实中的计算资源通常是有限的,研究者开始探索模型大小、数据大小和模型计算量之间的最佳配置关系[61-62]。Hoffmann等[61]提出了Chinchilla缩放定律,即当可用计算资源增加时,模型大小和数据量大小应当等比例增长。此外,预训练数据的质量极大影响大模型的性能,因此在扩展预训练数据库时,数据收集和清洗策略相当重要。对大模型扩展定理的研究为大模型训练过程提供了较为直观的理解,使得大模型在训练过程中的表现更加有迹可循。3.2大模型的涌现能力大模型的涌现能力是指在小模型中不存在但在大模型中出现的能力。即当模型规模超过某个阈值后才能被观测到的能力。这是区分大模型与以前的预训练模型最显著的特征之一。模型规模达到一定水平时,模型性能显著提高,类似于物理学中的相变现象,是一种量变引起质变的过程。以下将简单介绍代表性的LLM涌现能力。上下文学习。上下文学习能力首先出现在GPT-3模型中。通过输入自然语言指令,GPT-3可以以完成输入文本的单词序列预测的方式生成期望的输出,无需额外的训练。逐步推理。小语言模型通常难以解决涉及多个推理步骤的复杂任务,例如数学问题和代码生成。通过采用“思维链”推理策略[15],LLM可以利用包含中间推理步骤的提示机制解决这类任务,这种能力可能来自于对代码的训练。合适的任务指令或上下文学习策略可以激发大模型的能力。例如,通过恰当的自然语言描述任务,对LLM进行指令微调,可以提高模型在新任务上的泛化能力;思维链提示有助于模型解决复杂的逻辑推理和数学运算任务。大模型表现出的涌现能力是其解决复杂任务的关键,也是实现通用统一模型的基础。4大模型发展趋势大模型的快速发展为人工智能的研究和应用带来了新的机遇和方向。然而,大模型研究也面临一些潜在的问题和挑战。本节将介绍大模型所面临的挑战性问题以及未来的发展方向。大模型采用深度神经网络架构,但其可解释性较差,难以对模型的训练过程和推理结果进行有效的跟踪和解释,在实际应用中面临安全问题,在可靠性要求较高的领域(如自动驾驶、AI医疗)存在巨大风险。此外,研究者对大模型的涌现能力产生机制仍不清楚。因此,关于大模型原理和能力的理论研究是一个重要方向,对大模型的实际应用和下一代大模型的发展至关重要。随着大模型参数规模的不断增大,由模型规模带来的性能提升出现边际递减效应。此外,更大的模型导致了更高的训练成本,包括算力、数据和更加复杂的训练过程。因此,开发更系统、经济的预训练框架以优化大模型训练过程变得尤为重要。大模型训练过程需要考虑模型有效性、效率优化和训练稳定性等因素。此外,还需要更灵活的硬件支持和资源调度机制,以便更好地组织和利用计算集群中的资源。大模型训练所需的大数据涉及隐私、伦理问题。例如,训练数据被篡改、破坏、泄露或非法获取,将会对公共安全和个人隐私造成严重损害。此外,训练数据中可能存在粗俗、暴力、色情等内容,导致大模型存在偏见问题。因此,大模型的安全和伦理问题也是一个相当重要的研究方向。大模型的发展为探索AI应用铺平了道路,揭示了许多前景并迎来了前所未有的机遇。大模型有可能引领未来几年的技术变革,带来新的产业格局。如图4所示,大模型在文本、代码和图像等领域已经得到广泛应用,开始取代文字编辑、记录等简单重复的工作岗位,辅助开发者编写程序,进行AI艺术创作等。在电子信息、生物医学等领域,大模型可以加快研究进程;大模型与传统产业的融合发展可以帮助企业提升智能化水平,推进实体经济智能化发展。此外,大模型发展还将为具身智能带来变革。具身智能是有身体并支持物理交互的智能体,它能够像人一样与真实物理世界进行互动,并具备自主决策、规划和主动感知等能力。大模型可将多模态知识迁移至具身推理中,使机器人执行特定指令,真正具备具身智能。图4大模型的应用前景Fig.4Applicationprospectoflargemodel5结束语大模型已成为人工智能领域的一个重要发展方向。从其发展历程来看,先后经历了机器学习模型、深度学习模型、预训练模型和大规模预训练模型4个阶段。在NLP和CV领域,大模型的发展不断刷新相关任务的性能,随着大模型参数量不断突破新高,研究者发现了大模型区别于普通预训练模型的新能力,称之为大模型的涌现能力,这是大模型能够胜任复杂任务的关键。此外,大模型的发展也面临许多挑战性问题,例如模型可解释性差、训练成本高、存在隐私和伦理风险等。未来的大模型参数规模发展可能进入平台期,研究者将更加关注大模型开发架构的优化以及大模型产业落地的相关研究,以充分发挥大模型的能力。
大模型基本概念4o
大模型是通过“大数据+大算力+强算法”相结合来模拟人类思维和创造力的人工智能算法延伸阅读:大模型及其在材料科学中的应用与展望人工智能(Artificialintelligence,AI)在各领域中的广泛应用从科研热点、社会关切、政策支持等维度都体现出极大的研究与应用价值[1].随着人工智能的土壤——数据的指数级增长以及计算能力的跃升,以深度学习为代表的突破性人工智能算法不断涌现[2],逐渐代替传统的机器学习和基于规则的方法,并在众多场景下得以大范围实际应用[3−4],如人脸识别[5]、自动驾驶[6]、文本生成[7]等.2022年底,OpenAI公司发布ChatGPT应用并迅速进入大众的视野[8],推出仅两个月后月活跃用户就已超一亿,成为历史上用户群增长最快的消费应用.基于语言大模型开发的人工智能产品ChatGPT被认为是人工智能技术的新突破,吸引了社会各界的重点关注,引发了国内外新一轮人工智能产品应用落地.可以这样说,以ChatGPT为时间起点,人工智能正式进入“大模型时代”,大模型也正在重塑各种任务并在众多复杂的下游任务中取得了不俗的成绩[9−11].1大模型概述1.1大模型大模型(Largemodels,LMs)通常指具有数十亿、百亿甚至更多参数级别的深度神经网络模型[12],其训练所需数据量远大于一般的深度学习算法模型(图1).大模型也可称为大规模预训练模型(Pretrainedmodels,PMs)或基础模型(Foundationmodels,FMs).通常而言,这种参数规模大、训练成本高的模型采用自监督学习范式(Self-supervisedlearning,SSL)获取强大且通用的数据表示,其本身并不针对特定的下游任务,而是获得对于训练数据的“理解”与“掌握”[13].“大模型应用”表示将预训练得到的大模型通过迁移学习将获得的知识整合、迁移到各个下游具体任务,并根据业务需求集成封装后的整体解决方案.以ChatGPT为例,其本身应被定义为基于语言大模型的生成式聊天应用,它是在GPT(Generativepre-trainedtransformers)系列预训练语言大模型的基础上经过复杂精调得到的商业化落地产品[14].图1人工智能发展:从机器学习到大模型Fig.1Developmentofartificialintelligence:frommachinelearningtolargemodels1.2大模型相关技术1.2.1深度无监督表征学习大模型的建立事实上是大规模深度无监督表征学习的结果[15].通过大量数据预训练后,将模型参数作为下游任务的初始化参数并在相应任务的目标数据上进行微调训练的策略称之为预训练–微调策略[16].这种学习策略遵循着迁移学习的思想[17],在自然语言处理任务中首先获得成功并逐渐影响计算机视觉任务相关方法的设计,视觉自注意力模型(Visiontransformer,ViT)[18]及相关变体模型[19]也凭借迁移学习的思想将图像分类[20]、目标检测[21]、语义分割[22]等视觉任务的成绩提升到史无前例的高度.从预训练阶段数据的标注有无出发,预训练可以分为有监督预训练、半监督预训练和无监督预训练[23].为实现无监督预训练,解决模型训练时的标注受限问题,自监督学习方法通过无监督代理任务预训练和有监督下游任务微调两阶段的结合,平衡标注数量和模型精度,取得了匹敌有监督预训练模型的效果[24].在大模型建立之后,其下游应用以自监督学习范式为技术基础.自监督学习旨在使深度神经网
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年艺术品抵押物担保借款合同模板3篇
- 2024版全面照护型带小孩保姆服务合同协议3篇
- 二零二五年快递企业客户关系管理合同汇编3篇
- 2025年中图版七年级生物上册阶段测试试卷
- 2025年北师大版必修3物理下册月考试卷含答案
- 2025年浙教版九年级数学上册阶段测试试卷
- 2025年粤人版三年级英语下册月考试卷
- 2025年沪科版六年级英语上册阶段测试试卷含答案
- 2024版建筑消防工程施工协议标准模板版B版
- 2024版农业贷款担保公司专业担保合同范本3篇
- Unit 3 We should obey the rules. Lesson15(说课稿)-2023-2024学年人教精通版英语五年级下册
- 绵阳市高中2022级(2025届)高三第二次诊断性考试(二诊)语文试卷(含答案)
- 2024年聊城市东昌府区中医院招聘备案制工作人员考试真题
- 2025年极兔速递有限公司招聘笔试参考题库含答案解析
- 一般固废处理流程
- 人力资源许可证制度(服务流程、服务协议、收费标准、信息发布审查和投诉处理)
- 建设工程监理费计算器(免费)
- JJG 517-2016出租汽车计价器
- JJF 1914-2021金相显微镜校准规范
- GB/T 32045-2015节能量测量和验证实施指南
- 2022高三英语一模-黄浦区解析
评论
0/150
提交评论