2023华为盘古大模型预训练白皮书_第1页
2023华为盘古大模型预训练白皮书_第2页
2023华为盘古大模型预训练白皮书_第3页
2023华为盘古大模型预训练白皮书_第4页
2023华为盘古大模型预训练白皮书_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

盘古大模型预训练大模型白皮书引言PREFACE让预训练大模型成为AI引言PREFACEAI走进企业核心生产系统“2025AI86%(EIAI实践:600+项目,30%进入生产系统,但是

封闭的作坊式的AI开发局限于特定的场景。特定的数据无法满足AI快速落地行业的需求0707模型1定制专家专家专家模型1定制专家专家专家1模型2定制专家专家专家2模型3定制专家专家专家3AI进入千行百业面临诸多挑战3行业普通AI模型攻击、隐私、安全担忧2行业知识与AI技术结合困难1场景碎片化,作坊式开发难以规模复制如果人们对电磁的理解停留在法拉第的电磁感应层次而没有麦克斯韦的电磁场理论,电气革命是不可能发生的。如果刮风下雨打雷甚至连温度变化都会导致断电,电怎么可能变成一个普惠性的产品,怎么可能变成社会基础设施?近年来,国内的云计算市场增速明显,企业上云明显提速。客户的需求逐步从“资源型需求”转向“智能型需求”及“业务型需求”,意味着PaaS、SaaS等各行业各场景的云解决方案将受到更多关注。尽管该市场“一招鲜吃遍天”的套路相对于针对用户需求定制化的解决方案已不具优势,意味着在细分领域深耕的中小型友商也具有瓜分市场的竞争力。因此,如何在保证市场占有率并支撑如此大量的业务的情况下,控制资源和成本、保证交付效率和保证产品质量是云厂商要解决的核心难题。08另一方面,随着工业生产越来越强调智能化,大量传统行业开始积累领域数据,并寻求人工智能算法以解决生产和研发过程中遇到的重复而冗杂的问题。这就意味着,人工智能算法在落地的过程中,将会面对大量不同场景、不同需求的用户。这对算法的通用性提出了很高的要求。然而我们注意到,当前业界大部分人工智能开发者,正在沿用传统的“小作坊模式”,即针对每个场景,独立地完成模型选择、数据处理、模型优化、模型迭代等一系列开发环节。由于无法积累通用知识,同时不同领域的调试方法有所不同,这样的开发模式往往比较低效。特别地,当前人工智能领域存在大量专业水平不高的开发者,他们往往不能掌握规范的开发模式和高效的调优技巧,从而使得模型的精度、性能、可扩展性等指标都不能达到令人满意的水平。我们将上述问题,称为人工智能算法落地的碎片化困境。超大的神经网络 强壮的网络架构 优秀的泛化能力多模态大模型科学计算大模型多模态大模型科学计算大模型CV NLP型 大模型) (千亿参数11流水线泛化复制22流水线华为云盘古大模型「AI工业化开发」预训练模型33流水线预训练&部署迭代 模型泛化极大节省训练投入流水线工具集成训练更快效率提升10-100倍更佳模型性能为了解决这个困境,预训练大模型应运而生。它收集大量图像、文本等数据,利用无监督或者自监督学习方法将数据中蕴含的知识提取出来,存储在具有大量参数的神经网络模型中。遇到特定任务时,只要调用一个通用的流程,就能够将这些知识释放出来,并且与行业经验结合,解决实际问题。近年来,预训练大模型相关研究和应用呈井喷态势,大有一统人工智能领域的趋势。不过我们也应该看到,预训练大模型距离规模化的商业应用,还有很长的路要走,这里不仅包含技术的演进,也包含商业模式的进化。按照我们的设想,大模型是未来AIAIAIAI开发更加规范化、平民化。我们希望通过编写《预训练大模型白皮书》,将我们团队在研究和落地中获得的经验总结下来,更好地促进行业的进步。09/09大模型是AI发展的必然趋势人工智能发展史简介人工智能发展趋势的总体研判/19盘古大模型家族介绍视觉大模型语音语义大模型多模态大模型科学计算大模型图网络大模型10/43盘古大模型应用案例视觉大模型案例:TFDS图像自动识别语音语义大模型:赋能智慧销售多模态大模型:一网统管事件工单分配图网络大模型:水泥生产系统的自动控制图网络大模型:炼焦系统的自动控制/55展望未来,大模型的机遇与挑战并存11大模型AI发展的必然趋势PAGEPAGE12PAGEPAGE13人工智能发展史简介人工智能从1956年被正式提出以来,经历了数十年的发展历程。人工智能诞生初期,其研究主要分为三个流派,即逻辑演绎、归纳统计和类脑计算。其中,逻辑演绎方法局限性较强,难以对建模复杂的实际问题进行建模;而类脑计算方法过多地依赖于生命科学,特别是脑科学的研究,而后者的进展难以满足人工智能的一般要求。在进入21世纪依赖,在大数据和大算力的支持下,归纳统计方法逐渐占据了人工智能领域的主导地位,并且催生出一系列方法论和应用,深刻地影响和改变了人类社会。人工智能发展史人工智能的乐观思潮人工智能的乐观思潮反向传播算法的提出深蓝战胜世界冠军感知器算法和硬件化专家系统出现资金支持再次减少达特矛斯会议的召开对盲目乐观的反思硬件需求大幅下降图灵测试的提出DARPA终止资助专家系统的局限性通用计算机出现《Perceptron》出版统计学习受到重视神经网络的数学模型DARPA资金的支持再次获得资金支持统计学习方法的应用孕育期繁荣期Ⅰ低谷期Ⅰ 繁荣期Ⅱ低谷期Ⅱ繁荣期Ⅲ治乭AlphaGo战胜李世大规模预训练模型1956 1974 1980 1987 19941956–1974年如上图所示,人工智能的主要发展阶段如下:1956–1974年第一次繁荣期1943–1956年孕育期1943–1956年这一时期的代表性成果,主要包括WarrenS.McCulloch和WalterPitts提出的人工神经网络的视觉模型,以及AlanM.Turing设想的验证人工智能的思想实验(即图灵测试)。同时,1946年出现的通用计算机ENIAC,也为人工智能的复杂演算提供了硬件支撑。

以1956年达特茅斯会议为标志,人工智能被正式提出并且进入第一次繁荣期。基于逻辑演绎的人工智能算法解决了某些特定领域的问题(如证明数学定理),而基于亚符号系统的感知器算法1957年出现了专门用于模拟感知器的计算机MarkI时的学者对于人工智能抱有不切实际的乐观幻想,包括MarvinL.Minsky(1969年图灵奖得主)HerbertA.Simon(1975年图灵奖得主在内的多名学者,均预测人工智能将在20年内获得彻底解决。而以DARPA为代表的政府机构和大型企业,也为人工智能的研究注入了大量资金。

第一次低谷期1974–1980年研究者们很快意识到了第一代人工智能算法的极限。1969年,MarvinL.Minsky发表著作《Perceptrons》,(即人工神经网络)方面的研究;同时,基于逻辑演绎的算法也被证明需要指数级时间以解决大部分问题。随着DARPA等机构撤出大部分投资,人工智能领域也开启一波反思浪潮,其中有代表性的是JamesLighthill1973年发表的人工智能综述报告JohnR.Searle1980年1974–1980年1980–1987年第二次繁荣期1980–1987年随着专家系统的出现和盛行,人工智能算法开始在限定领域内解决实际问题。1975年出现的MYCIN算法,能够在医学领域完成血液传染病的诊断工作。同Hopfield网络为代表的新型神经网络和DavidE.Rumelhart发明的反向传播算法,极大地增强了人工神1989YannLeCun(2018年图灵奖得主)使用五层神经网络识别手写数字,该方法取得巨大成功并在2090年代识别了美国超过10%的手写支票。以DARPA为代表的机构再次行动起来,使得20世纪80年代后半段在人工智能领域的投入资金比起前半段增长了数倍。

1987–1993年第二次低谷期1987–1993年然而,专家系统很快遇到了新的困境。研究者们发现,即使在限定领域中,面对未知或者未定义的问题时,即使问题十分简单,专家系统的表现也无法预测甚至控制。随着支持人工智能研究资金的再度锐减,研究者们再次开始反思,并且将思路逐渐从符号系统(如归纳演绎方法)转向亚符号系统(如统计学习方法)。这一时期,研究者们开始认识到感知和交互的重要性,其中影响较大的观点包括DavidMarr在其著作《Vision》中提出的视觉理解模型和RodneyA.Brooks提出的“模型可有可无,世界即是描述自身最好的模型”等。

第三次繁荣期1993年至今随着现代计算机的存储能力和算力不断增强,统计学习方法逐渐成为人工智能领域的绝对主流。在人工智能的各个领域,如计算机视觉、语音识别、自然语言处理等,手工设计的模型都逐渐被统计学习模型所取代。从20111993年至今值得一提的是,深度学习并未解决人工智能的本质问题。未来,业界很可能还要经历数次低潮与革新,方能达成真正的通用人工智能。在此之前,虽然存在着关于强/弱人工智能的讨论和对科技奇异点的担忧,但业界的重心依然是人工智能算法的研发。人工智能发展趋势的总体研判有趣的是,有影响力的三大流派(逻辑演绎流派、归纳统计流派、类脑计算流派)从人工智能创立之初便存在,时至今日也未由其中一派彻底统一。三大流派各有优劣势。类脑计算流派的目标最为宏远,但在未得到生命科学的支撑之前,难以取得实际应用。归纳演绎流派的思考方式与人类相似,具有较强的可解释性。由于对数据和算力的依赖较少,归纳演绎流派成为人工智能前两次繁荣的主角。随着学界对人工智能困难程度AIAI值得强调的是,深度学习是时代的产物。如果没有与大数据(存储设备和移动互联网的发展)和大算力(尤GPU的飞速演进为代表)的支持,深度学习就不可能在短短的3--5年间占领人工智能的大部分领域。而研究者们提出了层次化建模和分散表示的思想,使得复杂数据匹配的效率和精度获得提升,从而大大促进了特征学习。从技术的角度看,深度学习的核心是深度神经网络:通用的骨干网络配合特定目的的头部网络,使得深度学习统一了各个子领域内的不同问题。例如,在计算机视觉领域,彼此十分相似的深度神经网络已经成为图像分类、物体检测、实例分割、姿态估计等具体问题的通用框架;而在自然语言处理领域,一种被Transformer的模块也被大量使用,研究者们得以建立起通用的语言模型。然而,从本质上看,深度学习依然没有跳出统计学习的基本框架:特征抽取和模板匹配。相比于人类基于知识的推断,这种方式无疑是低效的。在人工智能进入千行百业的大背景下,这种设计理念必将导致人工智能算法的通用性受限,因为对于任何新的概念乃至新的实体,算法都需要专门的训练数据来提供相关的信息,而在没有基础模型支撑的情况下,开发者们必须从头开始完成收集数据、训练模型、调试模型、优化部署等一系列操作。对于大部分人工智能开发者而言,这无疑是重大的挑战;同时,这也使得人工智能算法的开发成本居高不下,难以真正惠及细分行业,尤其是中小型企业。对大模型的研究,将有可能启发下一个通用计算模型在下一个划时代的计算模型预训练大模型是解决上述问题的有效手段。预训练大模型是深度学习时代的集大成者,分为上游(模型预训练)和下游(模型微调)两个阶段。上游阶段主要是收集大量数据,并且训练超大规模的神经网络,以高效对大模型的研究,将有可能启发下一个通用计算模型在下一个划时代的计算模型根据实践经验,预训练大模型加持下的人工智能算法(根据实践经验,预训练大模型加持下的人工智能算法(包括计算机视觉、自然语言处理等),相比于普通开发者从头搭建的算法,精度明显上升、数据和计算成本明显下降,且开发难度大大降低。以计算机视觉为例:100张图像上训练基础物体检测算法,原8GPU5个小时、1名开发1个星期才能完成,而在预训练模型1GPU2个小时,而几乎不需要人力干预。综合人力、算力开销研判,上述案例的开发成本节约至原先的101%。回顾历史,2011年前后,正是传统统计学习方法的鼎盛时期,在计算机视觉领域甚至出现了参数量超过10亿的词袋分类模型——即使在2021年,10亿参数的计算机视觉模型也足以被称为大模型。然而,2012年左右,深度神经网络仅用6000万参数,即彻底击败词袋分类模型,引领计算机视觉发展至今。深度神经网络之于词袋分类模型,本质上是在特征匹配效率上产生了突破;我们猜测,在大模型发展到一定程度时,会产生另一个维度的突破,从而使得统计学习方法“进化”至下一阶段。目前看来,这个突破有可能产生于大模型与知识的结合。综上所述,预训练大模型是现阶段人工智能的集大成者,代表了统计学习流派的最高成就。在新一代技术未出现前,它将是人工智能研究和开发的最强武器。事实上,围绕大模型的研发和落地,中美之间已经展开了新一轮的竞争。美国 中

通过大模型构筑AI技术竞争壁垒是Turing-NLG(微软,EN)参数:170亿数据:1-5百GB资源:300-500GPUs

盘古(华为)NLP&CV&多模态&科学计算参数:1000亿数据:40TB文本(更新)资源:鹏城云脑Ⅱ

当前中美AI技术竞争的热点参数:170亿资源:10000V100GPUs

2.0(北京智源)NLP&参数:1.75万亿盘古大模型在商业落地走在最前列盘古工作流盘古大模型在商业落地走在最前列盘古工作流边学边用的使用模式ModelArts和智能体工作流能力,实现轻量化交付大模型TextSum.(OpenAI,EN)参数:67亿数据:12万文章320GPU-DaysSwitch-C(谷歌,EN)参数:1.6万亿数据:750GB资源:32TPU威震天(参数:5300亿PaLM(谷歌,EN)参数:5400亿数据:--资源:4096TPU-v3

文心ERNIE3.0(百度)NLP参数:100亿数据:4TB资源:384V100GPUsM6(阿里)多模态参数:100亿数据:1.9TB文本292GB图像资源:128A100GPUs紫东太初(中科院自动化所)多模态参数:千亿级数据:文本、图像、音频21盘古大模型家族介绍22PAGEPAGE23PAGEPAGE242020年立项AI2021年4(简称《盘古大模型》)的名称对外发布。盘古大模型集成了华为云团队在AI领域数十项研究成果,并且受益于华为的全栈式AI解决方案,与昇腾(Ascend)芯片、昇思(MindSpore)语言、ModelArts平台深度结合。本章简要介绍盘古大模型的若干组成部分,剖析构建大模型的关键技术。2.1视觉大模型计算机视觉的主要目标,是设计出能够识别视觉信号,并且对其进行各种处理和分析的程序。换句话说,计算机视觉是研究计算机如何去“看”的学科。其中,较为典型的任务包括图像分类、物体检测、物体分割、物体追踪、姿态估计等。下图展示了图像分类中最著名的ImageNet数据集(2万个物体类别)和MS-COCO数据集(包括检测、分割等多种任务)。TheImageNetdataset~15Mimages,~21Kcategories,~1.5TB

TheMS-COCOdatasetdetection,segmentation,poseestimation,etc.在计算机中,视觉信号一般以“密集采样强度”的方式存储:不同方向入射的光线在每个信道(如红绿蓝)上的强度被记录下来,用于呈现图像的基本内容。图像中的每个基本单元被称为像素——很显然,这些像素并不能代表基本的语义信息,因而图像的基本存储形态和人类能够理解的语义之间,存在很大的差距。在学界,这种差距被称为“语义鸿沟”,这也是几乎所有计算机视觉研究所需要处理的核心问题。进一步探究图像的存储形态,我们会发现图像信号的若干特点: 内容较复杂 内容较复杂 图像信号的基本单位是像素,但是单个像素往往不能表达语义。图像识别的任务,就是构建特定函数,使得像素级输入能够产生语义级输出。这种函数往往非常复杂,很难通过手工方式定义。 信息密度低 图像信号能够忠实地反映事物的客观表征;然而其中相当部分的数据被用于表达图像中的低频区域(如天空)或者无明确语义的高频(如随机噪声)区域。这就导致了图像信号的有效信息密度较低,特别是相比于文本信号而言。 域丰富多变 图像信号受到域的影响较大,而且这种影响通常具有全局性质,难以和语义区分开来。例如,同样的语义内容,在强度不同的光照下,就会体现出截然不同的表征。同时,相同的姿态出现,从而在像素上产生巨大差异,为视觉识别算法带来困难。鉴于上述特点,基于深度神经网络的预训练大模型就成为了计算机视觉落地的最佳方案之一。预训练过程能够一定程度上完成视觉信号的压缩,深度神经网络能够抽取层次化的视觉特征,而预训练结合微调的范式则能够应对丰富多变的域。以下,我们讲述盘古视觉大模型的整体思路和技术方案。2.1.1数据收集图像是一种复杂的非结构化数据,包含丰富的语义信息。现如今,还没有任何一种方法能够对图像数据的数学规律进行准确的描述,因而人们只能通过收集大量的数据,来近似现实中图像数据的分布。2009年出现的ImageNet数据集是计算机视觉领域的重要里程碑,它使得训练、评估大规模图像处理方法成为可能。随着计算机视觉技术的进步和更多应用的出现,ImageNet数据集的局限性逐渐显现出来,包括规模、复杂性等。为了解决这一问题,我们必须收集更大规模、更加复杂的图像数据,而这也是业界的一致趋势。我们通过多种渠道收集图像数据,包括但不限于公共数据集合下载、自有数据集合扩充、各搜索引擎关键字爬取、以图搜图、视频图像抽帧等。从这些原始数据中,我们筛除了低分辨率、低曝、过曝、简单背景等低质量图像数据,再通过已有预训练视觉模型进行重复图像的判断和去除,最终保留超过10亿张高质量图像数据,占据约40TB空间。10亿+10亿+图像数据~40TB存储空间覆盖自动驾驶,电力,铁路,遥感等2.1.2预训练方法我们使用的神经网络模型覆盖了计算机视觉领域最为常见的卷积网络和transformer架构,两者既可以分开使用,也可以按需结合以达到更好的效果。利用自动机器学习算法,我们能够支持并调用不同大小的神经网络,其中最大的计算模型具有接近30亿参数,最小的模型只有数十万参数,其大小相差超过1000倍,为适配不同的视觉任务提供了可能性。我们收集的训练数据大部分来自互联网,不仅具有相当程度的噪声,而且不包含准确的语义标签。为了充分业界首创在对比度自监督学习中引入等级化语义相似度,即挑选那些距离相应聚类中心更近的最近邻作为正样本,并且在拉近语义相似样本的时候引入了混合样本增强,以减少样本选取过程中的噪声影响。在此基础上,我们拓展自监督学习算法中正样本的数目,使得正样本集合能够更加高效地被聚集,同时避免受到大量负样本优化的影响。我们采用的预训练算法(TPAMI上)的简略示意图如下所示:MixedSampleEncoderqMixedSampleEncoderqBottleneckBottleneckMixAnchorSampleBottleneck MLPMLPEncoderKBottleneckBottleneckPositiveSampleticchanrSemSea

(注:基于等级化语义聚集的对比度自监督学习)2.1.3效果展示数据集业界最佳模型盘古预训练模型1Aircraft(飞行器)90.4389.32盘古视觉大模型在ImageNet数据集的线性分类评估上,首次达到了与全监督相比拟的结果。同时,受益于更好的语义对齐效果,我们的方法在小样本学习上表现优异:使用数据集业界最佳模型盘古预训练模型1Aircraft(飞行器)90.4389.32我们的方法达到了66.7和%的分类精度,均显著超我们设计了具有10亿参数量的基础模型,并在超过10亿张无标注图像组成的数据集上进行预训练。所得到的模型,在ImageNet上达到了88.7的分类精度,而1%标签的半监督学习精度也达到83.0%。同时,盘古大模型在超过20项下游任务上进行了测试,展现出良好的泛化能力,如下表所示。

数据集业界最佳模型盘古预训练模型1数据集业界最佳模型盘古预训练模型1VOC(自然场景)72.276.62CUB-200-2011(鸟类)86.9091.803DTD(纹理)80.0585.004EuroSAT(卫星图块)98.8598.985Flowers102(花)97.0799.696Food101(食物)92.2194.587Pets(动物)95.2995.918SUN397(场景)71.5178.929StanfordCars(车)92.4894.0910StanfordDogs(狗)87.4191.2811Average89.2291.962Comic(风格变换)35.638.03Clipart(风格变换)57.561.04Watercolor(风格变换)34.436.95DeepLesion(医疗)36.738.16Dota2.0(遥感)21.221.07Kitti(自动驾驶)29.632.98WiderFace(人脸)35.336.39LISA(红绿灯)43.542.710Kitchen(厨房场景)53.655.0average41.9643.85盘古预训练模型:检测性能比较语音语义大模型自然语言,是人类进化过程中形成的一种高效的存储和交换信息的载体。人们在使用自然语言交流时,既可以使用“听说”的方式,也可以使用“读写”的方式。这就意味着,对自然语言的理解和使用可以分为两个部分,即对于文字和音频的处理,合成为语音语义处理。在人工智能领域,这两个子课题分别被称为自然语言处理和语音处理。与计算机视觉类似,语音语义处理的目标,就是让机器学会像人一样理解并使用文字和声音,与人类或者其他智能体交流。如图所示,自然语言处理和语音处理都可以分为理解和生成两个部分。其中,“理解”的目标是让机器理解人类语言背后的语义信息,“生成”的目标让机器使用人类语言表达自己的意图。自然语言处理和语音处理的区别在于,前者主要处理文本信息,后者主要处理音频信号。大部分情况下,文本和音频信号具有很强的关联性,但是某些情况下,它们也可以表达各自擅长,而另一种载体难以表达的事物(如音乐难以用文本准确表达出来)。音频文本床前明月光语义语义音频床前明月光文本语音识(ASR) 音频文本床前明月光语义语义音频床前明月光文本语音合成(TTS) 文本生成语音语义处理的一个核心问题,是将文字和声音表达为机器容易理解和处理的形式。在深度学习诞生之前,人们主要使用特征工程的方式,通过人工定义一些特征函数,将文字和声音转化为特征向量。这种方法依赖专家知识,且特征很难扩展,无法规模化应用。随着深度学习技术的发展,自动学习语言的向量表示逐渐成为主流。对于“理解”任务,通常使用一个神经网络作为编码器,将语言映射到低维向量,用向量表达语义信息;而对于“生成”任务,通常再使用一个神经网络作为解码器,将低维向量映射到语言,将向量中蕴含的信息表达出来。上述编码器-解码器框架,能够用于处理文字和音频信号,其中文本编码器和音频编码器具有较大的差异,而文本解码器和音频解码器却大致相同。在深度学习时代,如何设计编码器和解码器的网络结构,以及如何学习编码器和解码器的参数,是两个关键的技术问题。在小模型时代,CNN模型和RNN模型技术占据主流,尤其是RNN中的一类被称为LSTM的模型,凭借其处理远距离依赖的能力大放异彩。然而,RNN模型的优化不稳定、且难以并行计算,这成为了构建大规模语言模型的障碍。2017年,基于自注意力的Transformer模块被提出,它结合了已有方法的优点,在速度和表达能力上都体现出巨大优势,因而迅速占领了自然语言处理和语音识别领域。随着大规模语料库的出现和自监督学习方法的成型,业界在2018年迎来了大规模预训练模型BERT并就此进入大模型时代。如今,预训练大模型凭借其出色的泛化能力和在此基础上发展的基于提示的微调技术,大大简化了各种下游任务的实现方式,推动了自然语言处理和语音识别领域的巨大发展,成为语音语义处理领域落地的最佳方案。以下,我们讲述盘古语音语义大模型的整体思路和技术方案。2.2.1数据收集与计算机视觉领域类似,自然语言处理和语音识别也建立在大规模数据集的基础上。所谓“读书破万卷下笔如有神”,为了让模型掌握强大的语言理解和生成能力,我们需要准备海量的数据让模型进行学习,覆盖各个主题和领域。关于文本部分,我们从互联网公开爬取了40TB原始网页数据,并且进行解析和清洗。我们使用正则匹配等方式,过滤掉常见噪声数据,如网页标签、特殊字符、错误编码等,并且使用哈希的方法对数据进行去重,然后对数据的长度进行规范,舍弃太短的文章并切分太长的文章,以确保输入长度在合理的范围内。最终,我们得到约647GB文本数据,其组成如下图所示。关于语音部分,我们从互联网公开爬取了超过7万小时普通话音频数据,并将其转换为音频文件,共计约11TB。视频来源包括新闻播报、影视剧、综艺节目、动画等。270GB百科知识200GB新闻博客106GB文学作品71GB270GB百科知识200GB新闻博客106GB文学作品71GB社交媒体2.2.2预训练方法对于语义部分,我们使用的神经网络是基于Transformer结构的编码-解码器模型。编码器负责文本理解,使用双向自注意力机制,让每个词充分“观察”它两边的词,以捕获它在上下文中的语义信息。解码器负责文本生成,使用单向自注意力机制,逐词进行生成,每个词只能“看到”它前面的词,根据上文的信息来预测下一个词。为了让模型从海量文本数据中学到语言知识,需要设计合适的学习目标。我们提出多任务融合的训练策略,以让模型同时获得理解能力和生成能力。针对理解能力,我们使用遮罩语言模型作为训练目标,即在原文中挖空,让模型做完形填空任务,例如对于“床前明月光疑是地上霜”这句话,我们从中随机选取一些位置进行挖空,如将“明月”和“霜”挖掉,模型的训练目标是将挖掉的内容预测出来。针对生成能力,我们使用回归语言模型作为训练目标,即给定一句话的上半部分,让模型预测下半部分,例如将“床前明月光”作为输入,模型的训练目标是将“疑是地上霜”预测出来。此外,为了让模型具备零样本推理能力,即直接处理下游任务的能力,我们还收集了超过100个下游任务训练数据,涵盖情感分类、意图理解、语义匹配、实体识别等常见的自然语言任务,将这些数据也加入预训练当中。对于语音部分,其解码器与文本类似,我们主要考虑其音频编码器。我们使用卷积与Transformer结合的网络结构,底层用卷积神经网络提取局部信息,上层用Transformer网络提取全局信息。我们使用对比学习的训练目标,将音频中挖掉一个片段,再随机采样一些片段作为负例,让模型从中找出正确的被挖掉的片段。多任务混合X明月Y霜编码器解码器遮罩语言模型编码器解码器床前X光疑是地上Y疑是地上霜编码器解码器回归语言模型编码器解码器床前明月光军事编码器解码器下游任务编码器解码器这段新闻:俄罗斯的 类别是什么2.2.3效果展示盘古的语义模型是业界首个千亿中文大模型,发布时(2021年5月)在中文理解类榜单CLUE上获得第一名。CLUE是中文理解类最权威的榜单,包括新闻分类、语义匹配、阅读理解、成语完形填空、指代消解等10个任务。对于生成类任务,我们在NLPCC2018文本摘要任务上取得了业界最佳成绩,超越第二名60%。由于多任务预训练,我们的模型具有强大的零样本推理能力,相比于RoBERTa模型,零样本推理准确率提升超过50%。我们的语音模型是当前最大的中文语音模型之一,拥有超过4亿参数,在自有数据上相比于基线模型字符错误率相对降低10%。下图展示了几个典型的自然语言理解任务,包括文本分类、阅读理解、实体识别等。盘古大模型在基于提示的微调下,能够轻松地在这些任务上取得很高的理解精度。文本分类任务输入这件衣服款式一般,文本分类任务输入这件衣服款式一般,但做工挺好的,价格也便宜,推荐购买阅读理解任务输入明明明明明白白白喜欢他,但他就是不说,他很高冷。提问:谁喜欢明明?实体识别任务输入姚明出生在上海,曾致力于休斯顿火箭队 输出输出输出积极白白姚明-人物上海-地点休斯顿火箭队-组织多模态大模型人类在理解外部世界时,往往需要综合考虑多种信息,如视觉、听觉等。在人工智能领域,多模态任务的主要目标就是处理和关联多源异构信息(如语音信息、文本信息、图像信息、视频信息等),通过设计相应信息融合或交互方法来综合提取多模态知识。因此,多模态任务与前述计算机视觉或者自然语言处理等处理单一模态的任务不同,需要在海量的多模态数据上完成预训练,然后将预训练的知识迁移到下游各项任务中,(譬如以文搜图或以图搜文视觉问答(通过图像内部所提供的信息对相关问题作答)、视觉定位(定位在一张图像中一段话所描述的对应区域),等。Amaninabrownshirtridesanelephantintothewater.Amanandaboyaretalkingaboutabicycleinastore.Amanwitharedhelmetonasmallmopedonadirtroad.Amaninabrownshirtridesanelephantintothewater.Amanandaboyaretalkingaboutabicycleinastore.Amanwitharedhelmetonasmallmopedonadirtroad.Apigeongreetsthreebicyclistsonaparkpath.Akidistoblowoutthesinglecandleinabowlofbirthdaygoodness.Womanonrightinwhiteshirt由于多模态数据具有多源异构的特点,理解任务的核心困难就在于如何将不同形态信息进行统一化表示,从而使得计算机能够处理完成多源异构信息的交互与知识抽取。盘古大模型围绕视觉(图像)和语言(文本)这两种最常见的模态展开研究,完成了一套预训练配合下游任务的流程。以下,我们将讲述盘古大模型的整体思路和技术方案。2.3.1数据收集与视觉和语音语义大模型相同,多模态大模型必须在海量、高质量的数据上进行训练。我们采用了业界通用的做法,即从互联网中爬取大量数据,然后使用过滤算法消除其中不符合要求的部分,最终得到高质量的图文配对数据,用于多模态大模型的预训练。具体地说,我们设定大量文本关键字,在搜索引擎上获取排名靠前的图像,并且将图像对应的文本(从元数据中获得)存储下来,形成图文配对数据池。去掉其中的重复数据后,我们进一步筛除其中分辨率过低或者文本长度过短的数据,随后利用已有的多模态预训练模型对这些配对的相似度进行判断,如果相似度太低,则将其文本描述丢弃并使用图像自动描述算法补充生成文本数据。经过上述预处理过程,我们最终得到了约3.5亿高质量的图文配对数据,占据约60TB存储空间。3.5亿对3.5亿对图文数据60TB存储空间2.3.2预训练方法多模态大模型预训练的关键,在于不同模态数据的高效交互和融合。当前主流的多模态大模型架构主要分为单塔架构和双塔架构。其中单塔架构只利用一个深度神经网络(一般是Transformer)结构来完成图像和文本之间的交互融合,本质上属于信息前融合方案;而双塔架构利用不同的神经网络来完成不同模态的信息抽取,然后仅在最后一层做信息交互和融合,因而属于信息后融合方案。盘古大模型采用了双塔架构,其具有模型独立性强、训练效率高等优势。盘古大模型的实现方式很简单:分别使用相应网络抽取图像和文本特征,然后将一个批次的图像和文本特征送入判别器,在对比损失函数的作用下,使得配对的跨模态特征聚集在一起,而不配对跨模态特征被拉远。在大数据集上充分迭代后,模型就能学会将图像和文本对齐到同一空间。此时,图像和文本的编码器可以独立用于各自下游任务,或协同用于跨模态理解类下游任务。Phrase-RegionSemanticPhrase-RegionSemanticAlignmentSemantics-levelShapleyInteractionSemanticPhrasesSemanticRegionsAgirlinabluecoatislookingdownatadogledbyamaninofaSemanticRegionGenerationSemantics-levelShapleyInteraction[CLS]Text-ImageContrastiveLearning[CLS]PatchTokensTextEncoderTextEncoderEmbeddingsPatchEmbeddingsAgirlinabluecoatislookingdownatadogledbyamaninofaEfficientandSemantics-Sensitive然而,当前大多数的多模态双塔架构方法仅仅进行了全局的信息对齐,而对于文本和图像内容的细粒度知识却缺乏考虑。譬如,一幅图像中可能包含很多视觉实体区域,而对应的文本描述中也包含了很多名词短语。以更精细的粒度对齐这些视觉实体和名词短语,将有助于多模态大模型获得更加强大的图文配对能力。基于此,盘古团队提出了自研算法LOUPE(发表于NeurIPS2022会议)。该算法利用博弈论相关思路将图像中的视觉实体区域和文本中的名词短语提取出,并通过对比学习损失函数进行细粒度对齐。使用这种方法训练出的多模态大模型,在多项下游任务中表现出了更好的精度。2.3.3效果展示盘古多模态大模型在多模态的各项下游任务,如跨模态检索、图像描述自动生成、视觉定位等任务上均取得了业界领先水平。采用LOUPE算法预训练所得的模型,在跨模态检索数据集Flicker30k以及MS-COCO上取得了当前业界最佳的图文检索精度,其中在MS-COCO的以文搜图任务上超过业界标杆算法CLIP达12.3%。此外,算法在开放域的物体检测和视觉定位任务中也取得了良好的效果,示意结果如下:(a)ObjectDetection(a)ObjectDetection(b)VisualGrounding科学计算大模型视觉大模型、自然语言大模型和多模态大模型主要面向通用的人工智能问题,例如音频分析、图像识别、语还存在许多人类也无法解决的问题,如湍流模拟、天气预报、大形变应力建模等。这些问题有着广泛的应用场景,如下图所示:气象医药游戏水务工业机械气象医药游戏水务工业机械航天航空土木...地质应用领域应用场景气象预报 药物性质 碰撞模拟 海浪高度 电子器件 机器计算 计算 性能计算 控制飞行器 结构应力设计 分析热力学 薛定谔 拉格朗日 谱平衡 麦克斯韦状态方程 方程 方程 方程 方程欧拉角微分方程N-S方程 本构方程...地震探测...程函方程微分方程上述问题很有价值,却也非常复杂。在人工智能之前,科学家们通常通过分析实验数据与推演机理公式的方式提炼这些问题的内在规律。这些传统方法,容易在大体量、高维度的数据处理上遇到困难。近年来,随着人工智能技术的飞速发展,业界涌现出了AI+科学计算类方法,即使用嵌入各类科学方程的深度神经网络,从观测数据和仿真数据中直接学习问题蕴含的规律,以对复杂的科学数据进行分析,了解科学过程的内部机理。...程函方程微分方程AIAI模型AI模型过去风速未来风速海浪高度药物性质AI模型AI模型氨基酸序列 蛋白质结构从预训练大模型的角度看,科学计算大模型与前述大模型存在若干相似之处。它们都建立在大规模数据集我们简单描述科学计算的独特之处。2.4.1数据收集在AI+科学计算场景中,数据分为观测数据和仿真数据两类。其中观测数据由观测工具(传感器等)产生,而仿真数据由仿真算法(对应人类知识)产生。这两类数据及其融合数据和机理知识,都AI模型的学习对象。不同科学计算场景的观测数据往往相差巨大,观测数据的收集往往需要特定领域的专业仪器与系统的实验,例如蛋白质结构预测问题中蛋白质结构的测定需要依赖于X射线衍射方法与核磁共振法、短临降雨预报问题中需要气象雷达收集的雷达波反射率数据、植物表型分析问题中数据则来自于实验员的收集,等等。在一些科学计算场景中,观测数据的数据量非常庞大,例如气象数据中的全球气象站历史数据、卫星数据和雷达回波数据。也有一些场景中,观测数据量相对较少,例如结构应力分析力传感器收集的数据。仿真数据来自于数值仿真算法的输出,蕴含着丰富的数学物理信息,同一个问题使用不同的仿真算法可以输出不同的仿真数据。仿真数据不同于观测数据,其精度受限于使用仿真算法的准确性和仿真计算的算力多少。相对于观测数据,仿真数据通常数据量更大(取决于仿真时使用的算力,同时缺省值较少,可以作为观测数据的有效扩充。在有些场景中,观测数据和仿真数据由特定的机理知识结合在一起,生成融合数据。如气象再分析数据,再分析数据通常使用同化算法融合仿真数据和实验数据得到结构化的数据,根据不同同化算法与使用的仿真数据也可以有不同的结果。以下总结了若干场景的数据情况。数据量噪音数据结构数据变化幅度准确度收集方式数据特点应用雷达回波数据GB~TB级别大(X,Y,Z,T)每一个空间点有对应的雷达回波值中等中等气象雷达原始数据是极坐标形式,拼接雷达回波数据中有空白区域短临降雨预报植物表型记录数据MB~GB级别中等(N,C)每株植物每种特(如产量,株高)有对应值较小高实验员手工收集或者高通量表型分析仪器数据收集难度较高,数据点较少植物表基因型关系分析氨基酸序列数据TB~PB级别小固定词表的序列数据大高由测定的DNA序列推算出序列数据,与文本数据相近蛋白质结构预测气象中心预报数据TB~PB级别小(X,Y,Z,T)较大低由气象仿真算法得到仿真数据和实际场景的观测数据有系统误差气象要素预报大气资料再分析数据PB级别大(X,Y,Z,T)较大中等由气象仿真算法与观测算法融合得到和实际场景观测数据有一定系统误差,但是包含观测数据的信息中长期气象预报2.4.2模型构建根据输入数据的性质,算法会选用不同的基础模型用于训练。以海浪预测任务为例,其目标为预测全球范围内海平面的实时浪高,输入和输出数据均为带有时间戳的二维球面数据,因此适合使用二维网络模型。如果将预测范围扩展至三维空间,如进行全球范围内的气象预测,输出和输出均为带有时间戳的三维数据(包括高度),则适合使用三维网络模型。二维网络和三维网络均可以借鉴计算机视觉领域的相应模型,如使用卷积神经网络或者视觉Transformer作为骨干架构,配合大数据进行预训练。成为某种约束性质的偏微分方程组。如下图所示,我们可以将此类方程组嵌入神经网络中,辅助模型架构设计或成为额外的约束条件,与标准观测或仿真数据一起,训练神经网络模型。在良好的实现下,这类知识通常能够增强模型的鲁棒性,降低模型拟合训练数据的难度和不稳定性。(注:左图为嵌入偏微分方程的神经网络示意图,右图为海浪预报问题使用的偏微分方程)2.4.3案例和效果展示以下,我们展示一个典型的科学计算案例,即全球海浪高度预测系统。传统科学计算方法通过求解谱平衡方程计算波浪高度,通常需要使用超级计算机计算,同时消耗大量算力。由于计算无法做到实时完成,当风速等气象要素改变时,传统方法无法给出实时的海浪预测,存在一定时间延迟。海浪预测问题的输入输出都是经纬度网格点上的气象要素数据,在数据形式上与视频数据相似。不同之处在0-255海浪预测的输出通常不是某种分类,而是连续的预测值,因此需要用回归损失替换深度学习中常用的分类、例如绕地轴旋转,因此需要选定满足特定不变性的CNNTransformer架构。盘古海浪预测模型的主体是考虑了旋转不变性的视觉Transformer架构,参数量约为五亿。如上所述,神经网络的损失函数由两部分组成,即实际数据上的预测误差和海浪预测本身需要满足的偏微分方程。通过爬取全球近10年的实时海浪高度数据进行训练,模型在验证集上预测的平均误差小于5cm,与传统预测方法相当,完全可以满足实际应用需求。更重要的是,AI算法的预测时间较传统方法大幅减少:在单张华为昇腾芯片上,1s之内即可得到全球海浪高度预测,1分钟内能够完成超过100次海浪预测任务,推理效率较传统方法提升了4-5个数量级。使用AI算法,我们可以迅速得到不同可能的风速条件下的海浪高度,从而进行实时预测和未来情况模拟,对于渔业养殖、灾害防控等场景有极大的价值。使用昇腾AI芯片,AI模型可以在一秒内给出成百上千组“随机”风速分布下的海浪分布图:盘古海浪预测模型可以在短时间内对数千组可能情况进行模拟,得到与传统科学计算方法相当的精度图网络大模型ERP数据(计划、财务、销售、采购)、分子基因、交通网络、股票、点云,等。这些数据很难通过标准的卷积、Transformer等模块进行处理,因而需要适应不同任务和不同模态的神经网络,以达到量化的效果。我们以图网络的形式对通用数据进行建模,以利用图结构来表达数据元素间的相关性。在上述背景下,盘古图网络大模型被设计出来,它的目标是统一大模型在通用数据域上的构造方案,从而实现不同任务场景下端到端的大模型训练、优化、微调和部署。盘古图网络大模型主要实现的目标有:通过删减、增加基模型,实现盘古图网络大模型的终身学习高泛化终身学习高精度高可解释性冷启动在具体任务中,盘古图网络大模型可自适应构建不同基模型和图网络,实现更高的精度盘古图网络大模型可基于图网络提供更强可解释性,(如工业、医疗、金融等)的需求通过选择基模型或者微调图网络,直接将盘古图网络大模型迁移至新场景使用同时,盘古图网络大模型还配备有其他适合部署的功能,如模型加密(使得模型在云、边、端等不同场景下部署时收到产权保护)和大规模数据训练(支持多节点并发训练),使得整套系统对实际应用更加友好。13 4213 4213 42数13 4213 4213 42数据基模型\基模型\模态数据技术:automlbaggingboosting图网络功能:中枢协同不同分布\模态模型技术:graph,set,tree,mlp,transformer...优势:对分区数量不敏感,更鲁棒...图:盘古图网络大模型整体架构盘古图网络大模型的顶层设计,主要分为基模型构建和图网络融合两个部分。在基模型构建部分,模型会自动使用超采样的不同数据集来训练不同的基模型:在这个过程中,不同基模型的超参数通过AutoML的相关技术进行搜索(图中的不同颜色的箭头表示不同的数据流,不同颜色的框中表示不同的基模型),减轻了开发者的调参压力。而在图网络融合部分,每个基模型根据输入数据进行预测,而不同的预测结果在图网络中被融合起来,得到最终的输出。该方案的优势在于,图网络中的基模型可以任意增减,而不管如何增减基模型,都不会对图网络的汇聚产生影响,因为图网络本身对于输入的基模型数量不敏感。为了让开发者更方便地使用这套框架,盘古图网络大模型在代码实现层面进行了架构的良好设计,整体代码结构清晰,易于阅读和维护。GNNBasemodelGNNBasemodelFinalOutputGNNadd_base_algorithmModeloutput1Modeloutput2Modeloutput3Modeloutput4Modeloutput5BasemodelselectionStackNetLayerOutputLayerOutputClassificationBasicAlgorithmXGBLGBRFMLP...XGBLGBRFMLP...图:盘古图网络大模型代码结构示意图上图展示了盘古图网络大模型的基本代码逻辑。系统整体由两部分组成,基模型构建和图网络融合。其中,BasicAlgorithm产生对应算法池内的对应算法和搜索空间,之后使用HyperparamFind类进StackNet训练该层的层次网络,并输出结果。该结果将作为下一次的输入重复进行新的基模型选择与超参搜索,在得到多个完整的基模型组成的层次网络的输出后,使用图add_base_algorithm方便地加入其中,进行图网络汇聚(1ModelOutput5),而不需要更改其他基模型、层次网络以及图神经网络。这样的特点,使得盘古图网络大模型能够很容易地应用于各种差异较大的任务。在下一章节,我们会展示盘古图网络大模型的若干实际应用案例。盘古大模型应用案例视觉大模型案例:TFDS图像自动识别TFDS是TroubleofmovingFreightcarDetectionSystem的缩写,即货车故障轨旁图像检测系统,由检测信息采集、信息处理传输和列检检测中心等设备构成,通过高速像机阵列,拍摄列车车底和侧下部的全部可视信息,经数字化处理后显示于检测中心的信息终端上,通过人机结合的方式,对抓拍后货车车辆的图像进行分析,实现故障检测功能。全路约有6000人动态检车员承担着对TFDS检测设备所拍摄车辆图像的分析工作。庞大的检车员数量造成每个路局的资金负担。当前,以人均年工资支出约为15万元计算,则全路每年在该领域的支出近10亿元;同时,车辆故障分析工作强度大、难度高,对车辆专业理论与实际运用需要有很好的水平,要求动态检车员在短时间完成整列车的故障分析,确保整列车的运行安全。TFDS图像自动识别从2007年就开始尝试采用图像自动识别技术进行研究,当时从故障部件的边缘及灰度面积进行,受故障形态多变、图像质量差异大、车体污染等影响,识别结果一直不理想,而且只能对故障形态非常明显的故障进行识别,如:截断塞门手把关闭故障,并采SVM(支持向量机)技术,识别率才达到80%以上,但对于其他故障,一直没有好的解决办法。因此,当前各路局车辆段都还是采用人工分析方式,TFDS的智能分析需求并没有得到很好的满足。部件定位部件目标检测行业预训练部件定位部件目标检测行业预训练部件位置信息基于先验的模板匹配部件丢失、错位、出现异常部件等部件故障分类形变、折断、脱落等故障识别故障识别行业预训练关键点检测角度、尺寸等故障局部故障检测破损、裂缝盘古行业预训练模型 语义相似样本聚集 等级化语义聚集

图像质量 增强图评估

亮度特征提取 综判别质量评估模型判别

图像正常

算法识别预报故障异常 检测 异常检异常检测 行业预训练 大面积地板破损、异物、形变整车故障综合分析整车综合分析整车故障综合分析基于盘古行业预训练模型的铁路TFDS开发方案上图展示了盘古视觉大模型在为TFDS定制的解决方案。依托于盘古行业预训练大模型,我们定制化地开发了整体解决方案,包括车型筛选、工位分类、配件筛选、图像质量评估、已与车型先验的模板匹配、多车级联分析等模块,其中盘古大模型核心解决方案包含以下组成部分:车辆拆分根据整列车图像,定位出每辆车的图像行业预训练模型利用百万级无标注铁路行业生成铁路行业预训练模型自动增强和评估车辆拆分根据整列车图像,定位出每辆车的图像行业预训练模型利用百万级无标注铁路行业生成铁路行业预训练模型自动增强和评估图像进行自动评估,对正常图像做进一步故障识别,非正常图像返回人工审核模板匹配根据已知的车型信息建立零部件的相对位置模板,预报部件位置异常(丢失、错位)故障定位、识别基于铁路行业预训练大模型,结合目标检测、图像识别框架,进行部件定位、故障识别基于盘古视觉大模型的整体解决方案,在5T检测车间集中作业分析的14条线路进行了验证。在2021919202110205T检测车间动态检车员预报并经组长确认为提报故障的数据样本(故障图片)共计32007张。在测试环境下,这些故障图片与大量正常图片混合,送入盘古大模型进行判断。如下表所示,实测结果表明,当前盘古大模型的识别精度已经超过人类检测员水平。拦停准确预测119拦停准确预测119漏报1故障总数120识别率99.17%重点准确预测28280漏报506故障总数28786识别率98.24%一般准确预测3084漏报17故障总数3101识别率99.45%PAGE50PAGE50PAGEPAGE51语音语义大模型:赋能智慧销售销售在许多行业中都是十分重要的角色,包括银行、保险、汽车、地产等,销售的水平直接影响企业的业绩。销售要求具备优秀的语言能力,一方面要理解客户潜在的意图,推荐客户可能感兴趣的产品,另一方面要运用合理的表达方式,突出产品的优点,刺激客户的购买意向。在传统销售场景中,往往以结果作为唯一评价指标,无法对销售的中间过程进行监测,导致客户的潜在购买意图没有被充分挖掘,低水平销售不清楚短板在哪里,难以找到提升方向,高水平销售的成功经验也难以总结。业务场景挑战普通销售人员和精英销售人员业绩差异相当大企业缺乏有效手段及时发现每名销售的短板并及时给予指导,造成大量业绩损失业务场景挑战普通销售人员和精英销售人员业绩差异相当大企业缺乏有效手段及时发现每名销售的短板并及时给予指导,造成大量业绩损失循环智能的解决方案和业务结果•数据采集执行监督•话术挖掘实时辅助深入业务流程的销售辅助闭环提升初级销售的产能高达50%,中级销售产能10%~30%线下银行网点依然适用23在保险的销售场景,借助名单意向预测和产品推荐系统,实现销售转化率2x~3x业务场景挑战业务场景挑战上浪费了大部分精力,销售转化率难提升产品推荐完全基于人工经验,未经数据验证循环智能的解决方案和业务结果创造性地基于过往沟通内容与成单结果进行意向预测通过未成交名单意向排序和已成交客户增购意向排序及产品2x~3x适用于电销、网销、代理人等多种销售渠道依托于大模型的通用性和泛化性,我们可以将该系统迁移到各个行业中,性能保持稳定。除B端场景外,语音语义大模型也瞄准C端的多个场景进行发力,包括语音助手、自动问答、对话生成等。由于在预训练中学习过海量的百科类数据,模型中存储了大量通用知识,可以针对特定问题生成合理的答案。如提问“北京有哪些好玩的景点”,模型可以给出“故宫”、“长城”、“798艺术区”等答案。此外,模型还具备聊天能力,可以生成合理的多轮对话回复。多模态大模型:一网统管事件工单分配一网统管事件工单分配是每个城市运营中必不可少的业务之一。通过对工单分配,可以有效地安排对应部门处理城市当中发现的问题,缩小发现事件和处理事件之间的时间差。当前,一网统管的事项类别分布十分广泛,多达300类;此外,大规模城市往往每天都面临着大规模事件工单进行分发,因此事件工单的智能分配是非常关键的问题。(描述(文本描述而形成。在使用小模型时,这些事件的分类精度较低,因而产生了大量错误分类,导致事件没有分配到对应的处置单位中,严重影响事件的处理效率。此外,由于事件分类缺乏国家标准,不同城市的事件类别也有一定的特异性;如果使用小模型,就会需要对每个城市做一次数据的重新收集和模型迭代训练,耗时耗力,并不便于城市功能智能分配系统的快速部署。盘古多模态大模型的出现,给了城市事件工单智能分配统一解决方案。基于自研算法,盘古多模态大模型能够在大规模通用图文配对数据上进行预训练。基于预训练模型,就可以在网格员或者市民上传的图片或者文本上抽取有效信息,进而与相应类别的图像或者文本特征进行相似度匹

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论