互联网行业专题研究_第1页
互联网行业专题研究_第2页
互联网行业专题研究_第3页
互联网行业专题研究_第4页
互联网行业专题研究_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

互联网行业专题研究一、大模型发展情况1、行业发展历程语言是人类表达和交流的突出能力,其在儿童早期发展并在一生中不断演变。然而,除非配备强大的人工智能(AI)算法,机器不会自然地掌握理解和使用人类语言的能力。要让机器像人类一样阅读、写作和交流一直是一个长期的研究挑战。从技术上讲,语言建模(LanguageModel,LM)是提高机器语言智能的主要方法之一。一般来说,LM旨在对单词序列的生成概率进行建模,以便预测未来(或缺失)单词的概率。LM的研究在学界中得到了广泛的关注,可以分为四个主要发展阶段:统计语言模型(SLM):SLM是基于20世纪90年代兴起的统计学习方法开发的。其基本思想是基于马尔可夫假设构建单词预测模型,例如根据最近的上下文预测下一个单词。具有固定上下文长度n的SLM也被称为n-gram语言模型,例如二元和三元语言模型。SLM已经被广泛应用于提高信息检索(IR)和自然语言处理(NLP)任务的性能。然而,它们经常受到维度灾难的影响:由于需要估计指数级的转移概率,因此很难准确估计高阶语言模型。因此,专门设计的平滑策略,例如后退估计和Good-Turing估计已经被引入为缓解数据稀疏问题。神经语言模型(NLM):NLM通过神经网络,例如递归神经网络(RNNs),来描述单词序列的概率。作为一个显着的贡献,Y.Bengio和R.Ducharme等人引入了单词的分布式表示的概念,并构建了基于聚合上下文特征(即分布式单词向量)的单词预测函数。通过扩展学习词或句子有效特征的想法,已有研究开发了一种通用神经网络方法来为各种自然语言处理任务构建统一解决方案。此外,word2vec提出了构建一个简化的浅层神经网络,用于学习分布式单词表示,这在各种NLP任务中被证明非常有效。这些研究开创了语言模型用于表示学习(超越了词序列建模)的应用,对NLP领域产生了重要影响。预训练语言模型(PLM):作为早期尝试,ELMo被提出来通过预训练一个双向LSTM(biLSTM)网络(而不是学习固定的词表示)来捕捉上下文感知的词表示,然后根据特定的下游任务微调biLSTM网络。此外,基于高度可并行化的Transformer架构和自注意力机制,BERT提出了通过在大规模无标注语料库上设计特定的预训练任务来预训练双向语言模型。这些预训练的上下文感知的单词表示非常有效,可作为通用语义特征,大大提高了NLP任务的性能。这项研究启发了大量的后续工作,建立了“预训练和微调”学习范式。在此范式下,开发了大量关于PLM的研究,引入了不同的架构(例如GPT-2和BAR)或改进的预训练策略。在这个范式中,通常需要微调PLM以适应不同的下游任务。大型语言模型(LLM):研究人员发现,扩展PLM(例如扩展模型大小或数据大小)通常会导致模型在下游任务上具有更强的能力(即遵循缩放定律)。一些研究探索了通过训练更大的PLM(例如175B参数的GPT-3和540B参数的PaLM)来达到性能极限。尽管缩放主要是在模型大小(具有类似的架构和预训练任务)方面进行的,但这些大型PLM显示出与较小PLM(例如330M参数的BERT和1.5B参数的GPT-2)不同的行为,并展现出令人惊讶的能力(称为涌现能力)以解决一系列复杂任务。例如,GPT-3可以通过上下文学习来解决少样本任务,而GPT-2做不好。因此,研究界为这些大型PLM创造了“大型语言模型(LLM)”的术语。LLM的一个显著应用是ChatGPT,它利用GPT系列的LLM适应对话,具有惊人的与人类对话的能力。大语言模型相较于以往的语言模型具备显著优势,其具备优秀的上下文学习能力、可观的知识容量、优秀的泛化性和复杂推理能力。大型语言模型研究的发展有三条技术路线:Bert模式、GPT模式、混合模式。其中国内大多采用混合模式,多数主流大型语言模型走的是GPT技术路线,直到2022年底在GPT-3.5的基础上产生了ChatGPT。到2019年后,Bert路线基本没有标志性的新模型更新,而GPT技术路线则趋于繁荣。从Bert往GPT演化的过程中,模型越来越大,所实现的性能也越来越通用。各类大语言模型路线各有侧重,GPT模式在生成类任务表现最优。大型语言模型按照从数据到知识来划分,数据可分为通用数据和领域数据,知识分为语言知识和世界知识。从任务类型来划分,大型语言模型可以分为单一任务和多任务、理解类和生成类;Bert模式有两阶段(双向语言模型预训练+任务Fine-tuning),适用于理解类以及某个场景的具体任务,表现得“专而轻”。GPT模式是由两阶段到一阶段(单向语言模型预训练+zero-shotprompt),比较适合生成类任务、多任务,表现得“重而通”。T5模式则将两者的方法结合,包含有两阶段(单向语言模型预训练+Fine-tuning)。根据当前研究结论,如果模型规模不特别大,面向单一领域的理解类任务,适合用T5模式,而GPT模式在做生成类任务时的效果最好。综合来看,当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式。如今,LLM正在对人工智能社区产生重大影响,ChatGPT和GPT-4的出现引发了重新思考人工智能通用智能(AGI)的可能性。OpenAI已经发表了一篇名为“PlanningforAGIandbeyond”的技术文章,讨论了实现AGI的短期和长期计划,而最近的一篇论文则认为GPT-4可能被视为一个早期版本的AGI系统。LLM的快速进步正在彻底改变人工智能的研究领域。在自然语言处理领域,LLM可以在某种程度上充当通用语言任务求解器,研究范式已经转向使用LLM。在信息检索领域,传统的搜索引擎正在被AI聊天机器人(即ChatGPT)挑战,而NewBing则是基于LLM增强搜索结果的初始尝试。在计算机视觉领域,研究人员试图开发类似于ChatGPT的视觉语言模型,以更好地服务于多模态对话,而GPT-4通过集成视觉信息已经支持多模态输入。这股新的技术浪潮有可能会导致基于LLM的真实世界。例如,Microsoft365正在被LLM(如Copilot)赋能以自动化办公工作,而OpenAI支持在ChatGPT中使用插件来实现特殊功能。起源于Transformer模型,ChatGPT经过5年迭代成功出世。ChatGPT的诞生经历了从Transformer->GPT->GPT2->GPT3->ChatGPT的逐步迭代过程,其具体发展历程如下:(1)2017年6月,Google发布论文《Attentionisallyouneed》,首次提出Transformer模型,成为GPT发展的基础;(2)2018年6月,OpenAI发布论文《ImprovingLanguageUnderstandingbyGenerativePre-Training》,首次提出GPT模型,即GPT-1,模型参数量达1.17亿;(3)2019年2月,OpenAI发布论文《LanguageModelsareUnsupervisedMultitaskLearners》,提出GPT-2模型,大模型共计48层,参数量达15亿;(4)2020年5月,OpenAI发布论文《LanguageModelsareFew-ShotLearners》,提出GPT-3模型,参数量达1750亿;(5)2022年2月底,OpenAI发布论文《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,公布InstructionGPT模型,参数量达13亿;(6)2022年11月30日,OpenAI推出ChatGPT模型,并提供试用。2、大语言模型概览通常,大型语言模型(LLMs)是指包含数千亿(或更多)参数的语言模型,它们是在海量文本数据上进行训练的,例如GPT-3,PaLM,Galactica和LLaMA。具体来说,LLMs建立在Transformer架构之上,其中多头注意力层在一个非常深的神经网络中堆叠。现有的LLMs主要采用类似的模型架构(即Transformer)和预训练目标(即语言建模)作为小型语言模型。作为主要区别,LLMs大量扩展了模型大小、预训练数据和总计算量(数量级)。它们可以更好地理解自然语言,并基于给定的上下文(即提示)生成高质量的文本。这种能力提升可以部分地由缩放法则描述,即性能大致随着模型大小的增加而显著增加。然而,一些能力(例如上下文学习)是不可预测的,只有当模型大小超过一定水平时才能观察到。百亿参数量级别的模型:这类模型的参数规模除了LLaMA(最大版本65B参数)和NLLB(最大版本54.5B参数),大多在10B至20B之间。这一参数范围内的模型包括mT5、PanGu-α、T0、GPT-NeoX-20B、CodeGen、UL2、Flan-T5和mT0等。其中,Flan-T5(11B版本)可以作为研究指令微调的首选模型,因为它从三个方面探索了指令微调:增加任务数量、扩大模型规模和使用思维链提示数据进行微调。CodeGen(11B)是一个为生成代码设计的自回归语言模型,可用作探索代码生成能力的候选模型,其提出了一个新的基准测试MTPB,专门用于多轮程序合成,由115个专家生成的问题组成,为了解决这些问题,需要大语言模型获得足够的编程知识(例如数学、数组操作和算法)。对于多语言任务,mT0(13B)可能是一个比较好的候选模型,因为它在多语言任务中使用多语言提示进行微调。此外,对于中文的下游任务,PanGu-α具有较好的表现,特别是在零样本或小样本的设置下,该模型基于深度学习框架MindSpore开发,拥有多个参数版本(最大版本200B参数),而最大的公开版本只有13B参数。此外,作为最近发布的模型,LLaMA(65B)在与指令遵循相关的任务中展现了卓越的性能。由于其开放性和有效性,LLaMA引起了研究界的广泛关注,许多工作致力于微调或继续训练其不同的模型版本以实现新模型或工具的开发。百亿参数量级别的模型通常需要数百甚至上千个GPU或TPU。例如,GPT-NeoX-20B使用了12个微服务器,每个服务器配备了8个NVIDIAA100-SXM4-40GBGPU,LLaMA使用了2048个A100-80GGPU。为了准确估计所需的计算资源,我们还是建议使用衡量涉及计算量的指标,例如计算FLOPS(每秒浮点数运算次数)。据中移智库统计,截止到2023年4月18日,国内至少有19家企业及科研院所涉足人工智能大模型训练,主要分为大型科技公司、科研院校和初创科技团队三类。具体来看:百度、阿里等12家大型科技公司和中国科学院、清华大学等3家科研院校已经提供开放测试,或有明确的推出时间计划;字节跳动、搜狗创始人王小川、美团创始人王慧文、创新工场创始人李开复等则是最近对外宣布组建团队,进军大模型研发领域。其中,字节跳动旗下火山引擎于4月18日发布自研DPU(数据处理器)等系列云产品,推出新版机器学习平台,可以支持万卡级大模型训练、微秒级延迟网络,为预训练模型提供强大的算力支持。从大模型参数量看,科技大厂的参数量远大于科研院所。科技大厂的大模型参数量较大:阿里通义千问大模型参数在10万亿级以上、腾讯混元大模型和华为盘古大模型参数量均在万亿级以上、百度文心一言大模型参数量在2千亿级以上、京东言犀大模型的参数量为千亿级;垂直行业科技企业已经上线的参数量普遍在千亿级以上;而科研院校大模型的参数量在千亿级及以下。从大模型应用方向看,大部分企业前期以内部应用为主,后续主要向B端企业拓展服务,预计少数企业将在C端市场形成规模。目前,百度文心大模型、华为盘古大模型、中国科学院紫东太初大模型均在B端垂类市场积累了标杆应用案例,腾讯混元大模型、阿里通义大模型则更多聚焦公司自身业务。而在C端市场应用方面,百度文心一言、阿里通义千问、腾讯混元助手三类大模型最有可能向此方向拓展,但目前只有百度文心一言大模型正在进行友好客户测试,阿里通义千问大模型则计划在今年9月份进行公测,腾讯混元助手大模型则处于计划开发状态。3、产业发展趋势大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。大模型的核心作用是突破数据标注的困境,通过学习海量无标注的数据来做预训练,拓展整体模型前期学习的广度和深度,以此提升大模型的知识水平,从而低成本、高适应性地赋能大模型在后续下游任务中的应用。在实践中,预训练大模型在基于海量数据的自监督学习阶段完成了“通识”教育,再借助“预训练+精调”等模式,在共享参数的情况下,根据具体应用场景的特性,用少量数据进行相应微调,即可高水平完成任务。大模型增强了AI技术的通用性,让开发者以更低成本、更低门槛,面向场景研发更好的AI模型,助力普惠AI的实现。但目前,基础大模型距离大规模产业应用并成为产业基座还有很长的一段路要走,不仅需要有与场景深度融合的大模型体系,也需要有支持全流程应用落地的专业工具和平台,还需要开放的生态来激发创新;三层之间交互赋能,才能形成良性循环的产业智能化生态共同体。我们看到OpenAI在开发GPT大模型的过程中具有相似的思路,在不断加强大模型本身性能的同时,将GPT打包成产品,对外提供API服务,相关开发者、企业、学术机构以及高校都可以申请使用。开放后,大量开发者利用API开发出了各种各样的功能,例如翻译机、网站生成器等;OpenAI则通过用户获取了更多的行为数据,形成了对GPT的反哺。由此可见,“模型+工具平台+生态”三层共建有助于业务的良性循环,也更容易借助长期积累形成竞争壁垒。生态层是基于大模型能力打造共创、共享社区。大模型“预训练+精调”的新研发范式,让AI在识别、理解、生成等方面的能力实现突破,带来深度语义理解、智能交互、内容生成的技术与产品变革动能。打造基于大模型能力的生态,提供能力、工具、服务,连接供需,吸引更多的开发者和企业共创、共享,是释放大模型潜力的重要路径。“模型+工具平台+生态”的模式需要协同优化,拓宽人工智能技术落地的场景覆盖广度,加深产业实际应用的深度,共同加速产业智能化,推动人工智能技术赋能千行百业,惠及千家万户。“模型+工具平台+生态”的模式需要协同优化,才能拓宽人工智能技术落地的场景覆盖广度,加深产业实际应用的深度,共同加速产业智能化,推动人工智能技术赋能千行百业,惠及千家万户。二、互联网大厂模型1、阿里阿里以“通义大模型+飞天智算平台+魔塔社区+行业应用”成为大模型全部环节的重要参与者。2019年,阿里达摩院开启大模型研究。2022年9月,阿里正式发布通义大模型,包括通义M6多模态模型、通义AliceMind自然语言处理模型、通义视觉计算机视觉模型。2022年11月,阿里推出AI开源社区“魔搭”(ModelScope),旨在打造下一代“模型即服务”的共享平台,整合业界多方模型提供者,为开发者提供预训练基础模型和API接口。目前该平台已有超过300个开源模型,包括阿里自有的通义大模型系列以及澜舟科技孟子系列模型等外部资源和能力。2023年4月,阿里正式发布了“通义千问”产品,该产品基于10万亿级参数的大模型底座M6-OFA,未来将具有多轮交互及复杂指令理解、可多模态融合、支持外部增强API等多种能力。另外,阿里不仅拥有最多的英伟达A100芯片,还拥有自研芯片含光800、倚天710芯片,共同为人工智能大模型提供算力。1.1模型阿里推出“通义”系列大模型,由统一底座层、通用模型层、行业模型层组成,不仅通用多种任务,又容易落地应用,其中,应用在B端更有优势。2022年9月2日,阿里推出“通义”系列大模型,核心模型通过“魔搭”社区向全球开发者开源开放,推出“飞天智算平台”提升AI训练效率。通义大模型通过打造业界首个AI统一底座并构建大小模型协同的层次化人工智能体系,解决了大模型通用性与易用性仍欠缺的难题。通义大模型由统一底座层、通用模型层、行业模型层组成。其中,统一底座是基于transformer框架,由统一学习范式和模块化设计理念构成;通用模型层主要包括通义-M6、通义-AliceMind和通义-CV三大模型体系。由于低训练能耗优势,通义大模型运行速度加快,例如,M6在相同参数规模下的训练能耗仅是GPT-3的1%。目前,阿里通义大模型已广泛用于电商、设计、医疗、法律、金融等领域,助力其降本增效。而在落地应用方面,阿里原有的产品资源导致其在B端更有优势。阿里巴巴于2023年4月7日推出通义千问大语言模型内测。在4月11日的2023阿里云峰会上,阿里巴巴CEO张勇表示阿里巴巴所有产品未来将接入通义千问大模型,进行全面改造,包括天猫、钉钉、高德地图、淘宝、优酷、盒马等。阿里将结合200多万的企业用户和辐射的2-3亿真实活跃用户资源,把文本作为核心场景镶嵌到钉钉的三大入口,预计2023Q3推送给部分B端客户的企业钉。通义-M6属于多模态模型,覆盖文本和语音模态,在短时间内高速发展,并实现架构、模态和任务统一。通义-M6(英文全称是MultiModality-to-MultiModalityMultitaskMega-transformer,6个M,简称M6)包括图文生成,图文理解,多模态对话,运动预测,运动生成,语音理解,语音生成,多模态检测和分割。通义-M6已经从2020年6月的3亿参数基础模型逐渐发展到2021年10月的10万亿参数全球最大预训练模型再到2022年1月的业界首个通用统一大模型M6-OFA。2020年1月,阿里巴巴达摩院启动中文多模态预训练模型M6项目,同年6月推出3亿参数的基础模型。2021年1月,模型参数规模到达百亿,已经成为世界上最大的中文多模态模型。2021年3月,千亿参数模型KDD2021发布,与10B模型相比:①训练损失减少37%,在许多下游任务实现SOTA结果;②混合精度提亮90%的效率;③仅需32张v100GPU即可完成训练。2021年5月,具有万亿参数规模的模型正式投入使用,追上了谷歌的发展脚步。2021年10月,M6的参数规模扩展到10万亿,成为当时全球最大的AI预训练模型。2022年1月,业界首个通用的统一大模型M6-OFA发布。AliceMind是NLP的深度语言模型体系,以通用预训练语言模型StructBERT为基础,拓展到超大的领域模型、多语言、多领域、多模态方向,可用于结构化、生成式、知识驱动等应用。AliceMind,取名来自Alibaba'sCollectionofEncoder-decodersfromMinD(MachineIntelligenceofDamo),是阿里达摩院机器智能技术实验室倾力打造的具有领先性和系统化的深度语言模型体系。AliceMind的核心应用场景有:文本标签分类、序列标注、智能中文生成(如商品描述写作推荐、小说续写、古诗生成、菜谱生成等)、多模态问答(如VQA,图片问答)、问答对自动生成等。Alicemind已经服务阿里内部和外部客户几百个场景。通义-视觉属于CV模型,覆盖图像,视频模态。通义-视觉大模型自下往上分为底层统一算法架构、中层通用算法和上层产业应用,由两个基础模型构成,能够实现视频处理、视觉问答、视觉算数等多种算法,在电商、交通、自动驾驶等领域发挥作用。1.2算力2022年,阿里云推出全栈智能计算解决方案“飞天智算平台”,并启动两座超大规模智算中心,为科研、公共服务和企业机构提供强大的智能计算服务,可将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍。飞天智算平台源于阿里巴巴内部广泛实践,也源于广泛的产业智能实践。目前,该平台正在支撑建设两座超大规模智算中心。张北智算中心建设规模为12EFLOPS(每秒1200亿亿次浮点运算)AI算力。在云端,张北智算中心支撑AI预训练大模型、AIEarth、数字人等前沿AI应用,将成为全球最大的智算中心。乌兰察布智算中心建设规模为3EFLOPS(每秒300亿亿次浮点运算)AI算力,位于“东数西算”内蒙古枢纽节点,采用自然风冷、AI调温等绿色技术,实现绿色低碳。智能计算不同于通用型计算,需要海量数据对AI模式进行训练,算力被损耗在数据迁移、同步等环节,千卡以上规模的算力输出最低往往仅有40%左右。这导致了智能算力成本高昂,制约了产业发展。阿里云通过体系化的技术创新,改变了智能计算的损耗难题,将千卡并行计算效率提升至90%以上。在网络技术上:阿里云采用高性能RDMA网络,实现端对端最低2微秒延迟。在通信技术上:阿里云自研的无阻塞通信技术,让计算过程中的数据交换速度提升了5倍以上。在存储技术上:自研的IO加速器让数据存取实现最高10倍性能提升。在大数据AI开发层:阿里云提供分布式训练框架,并通过API对分布式策略进行自动组合和调优,将训练效率提升了11倍以上。一站式AI计算开发服务:阿里云为用户提供了一站式的通用推理优化工具,对算法模型进行量化、剪枝、稀疏化、蒸馏等操作,将推理效率提升6倍以上。阿里研发出高质量的大模型压缩技术,快速匹配客户计算资源。达摩院推出了大模型落地技术S4(Sound、Sparse、Scarce、Scale)框架,就包含了各种微调算法和模型压缩算法,将稀疏化等技术应用到百亿量级的大模型中。基于这一技术,阿里的270亿参数语言大模型PLUG在压缩率达99%的情况下,多项任务的精度损失在1%以内。这意味着百亿参数大模型也可能在几乎不损失精度的情况下进行稀疏化,最终实现单卡运行。另一方面,基于“通用大模型+行业knowhow”的方式迭代模型。通用大模型基于“大一统”技术,预训练时就已经具备了很强的理解和生成能力,只需再针对特定任务进行简单微调。即先打造一个基础大模型,再继续训练得到领域模型,最后通过微调构建具体行业任务模型。通义大模型的架构设计将这一过程做得更快且更高效。目前,通过部署超大模型的轻量化及专业模型版本,通义大模型已在超过200个场景中提供服务,实现了2%-10%的应用效果提升。比如,通义大模型在淘宝服饰类搜索场景中实现了以文搜图的跨模态搜索、在AI辅助审判中司法卷宗的事件抽取、文书分类等场景任务中实现3~5%的应用效果提升、在开放域人机对话领域通过建立初步具备“知识、情感以及个性、记忆”的中文开放域对话大模型实现了主动对话、广泛话题、紧跟热点等对话体验。1.3平台2022年11月,阿里巴巴达摩院与中国计算机学会开源发展委员会共同推出人工智能模型开源社区“魔搭”(ModelScope),首批合作方还包括澜舟科技、智谱AI、深势科技、中国科学技术大学等多家科研机构,旨在打造下一代开源的模型即服务共享平台,致力降低AI应用门槛。ModelScopeLibrary为模型贡献者提供了必要的分层API,以便将来自CV、NLP、语音、多模态以及科学计算的模型集成到ModelScope生态系统中。所有这些不同模型的实现都以一种简单统一访问的方式进行封装,用户只需几行代码即可完成模型推理、微调和评估。同时,灵活的模块化设计使得在必要时也可以自定义模型训练推理过程中的不同组件。除了包含各种模型的实现之外,ModelScopeLibrary还支持与ModelScope后端服务进行必要的交互,特别是与Model-Hub和Dataset-Hub的交互。这种交互促进了模型和数据集的管理在后台无缝执行,包括模型数据集查询、版本控制、缓存管理等。当前,魔搭社区收录模型共775个,其中中文模型约300个,主要通过大模型帮助开发者提取、抽象知识,通过下游调优,将下游目标精确化,从而快速形成针对行业的解决模型,解决实际应用问题。1.4应用通义千问将陆续接入阿里巴巴生态的所有商业应用中,如企业通讯、智能语音助手、电子商务、搜索、导航、娱乐等,从而进一步提升用户体验。凭借其中英双语能力,通义千问将首先部署于阿里巴巴的数码协同办公和应用开发平台钉钉,以及物联网智能家居终端机天猫精灵上。通义千问赋能钉钉:让职场沟通更高效。例如,钉钉将能够总结会议纪要、将会议对话生成文字会议记录、撰写电子邮件,以及仅用简单输入就可创建业务策划或推广方案初稿。用户还可以透过上传一张构思草图的图像,转瞬间就能在钉钉上生成小程序。通义千问赋能天猫精灵:与中国用户更活泼生动地对话。例如,天猫精灵将能够为儿童创作和讲故事、提供健康食谱和旅行建议,或推荐健身背景音乐等。从应用的角度,在传统APP中,因为各业务逻辑上的不同,比如淘宝与饿了么,飞猪与高德打车,APP间很难整合,强行整合反而会带来产品使用复杂度大幅增加,用户体验下降。但如果统一接入到通义千问中,参考智能座舱的语音助手,其更强的理解能力将使得交互逻辑变得非常简单,用户可以像询问生活助手一样询问通义千问来完成业务交互,不再需要学习操作逻辑,阿里生态中的家庭终端入口将实现统一。图像理解和“文生图(text-to-image)”等多模态能力也将很快添加到通义千问模型中,为用户提供更具吸引力的AI功能。阿里云智能首席技术官周靖人表示:“语言大模型支持下的生成式AI正迎来全新的发展阶段。在新AI时代,我们凭借可靠的公有云基础设施和久经验证的AI能力,为客户和广大社会创造价值。我们正见证AI发展的新范式,云和AI模型在其中发挥至关重要的作用。我们致力于让这种范式更普惠,希望以此促进各行各业的数智化转型,助力提高企业生产力,扩展专业知识和能力,并通过创新释放更大的机遇。”通义千问基于阿里巴巴自研的“通义”预训练模型框架,其统一底座包括“文生图”、“文生短视频”等AI模型。去年,阿里云推出开源“模型即服务”(Model-as-a-Service)平台“魔搭”(ModelScope),开放了数以百计AI模型,包括面向全球开发者和研究人员的通义“文生图”模型。目前“魔搭”小区拥有超过100万活跃用户,提供800多个模型,模型总下载量超1600万次。2、百度百度是国内领先布局AI领域的科技大厂,也是我国最早发布知识增强大语言模型产品的企业,其在AI领域累计投入研发总额超过千亿元,专利数量连续五年居全国第一。2010年,百度成立了人工智能自然语言处理部,是中国最早布局AI的企业之一。2012年,百度的AI战略已经初步成型,陆续成立了深度学习研究院IDL、人工智能实验室。2014年,百度开始涉足智能驾驶领域,先后推出了深度语音系统、百度大脑、度秘、Apollo自动驾驶平台等技术体系,涉及自然语言处理、机器翻译、语音、视觉、机器学习、深度学习、知识图谱等核心技术。2016年9月,百度在百度世界大会上正式对外开放集视觉、语音、自然语言处理、知识图谱、深度学习等技术于一体的百度大脑,并且每隔一段时间就会进行迭代,合作伙伴可以直接调用百度AI的核心能力。同年,百度主导的深度学习框架PaddlePaddle(飞桨)上线,涵盖了深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件,填补了中国开源深度学习框架的空白。2017年开始,百度就开始整合人工智能体系,在2019年下半的一次架构调整后,王海峰开始统管AIG、ACG和TG三块业务,百度AI的打法也进一步清晰,云计算被定义为智能基础设施的底座,同时将人工智能和底层技术能力灌输到底座中,进而成为赋能各行各业的“动力工厂”。2020年,百度智能云确立了“以云计算为基础,以人工智能为抓手,聚焦重要赛道”的新战略,选择智慧城市、智慧金融、智慧医疗、智能制造、智慧能源等为重要赛道,并屡屡签下数亿级别的订单。2021年初,百度再次夯实了自身的人工智能战略,从“AI+云”的整合过渡到云智一体的新阶段。2022年底,百度智能云推出了全栈自研的AI基础设施“百度AI大底座”,其包括“芯片–框架–模型”三层技术栈,在各个层面都拥有关键自研技术和领先产品,分别对应昆仑芯、飞桨(PaddlePaddle)、文心大模型。百度AI大底座对各层的技术栈进行了全栈融合、系统优化,完成了云和智的技术一体化建设,可以实现对大模型训练的端到端优化和加速。2.1模型文心大模型架构分为“基础+任务+行业”三级模型。基础大模型聚焦技术方向的技术挑战、通用性、泛化性探索;任务大模型深入理解任务特性,构建预训练算法、训练数据集,打造紧贴任务的模型能力;行业大模型深度融合行业数据与知识特性,构建更适配行业的模型底座。基础大模型支撑任务与行业大模型的建设,任务和行业大模型结合真实场景与数据反哺基础大模型优化。目前,文心大模型已经建设了36个大模型,其中基础大模型包含:NLP(自然语言处理)大模型、CV(计算机视觉)大模型、跨模态大模型,任务大模型包含对话、搜索、信息抽取、生物计算等多个典型任务,行业大模型包含与来自8个行业的头部企业或机构共建的11个行业大模型。2.1.1文心NLP大模型文心NLP大模型发展历程有三条主线,1)是文心ERNIE,百度发布了文心ERNIE3.0以及文心·ERNIE3.0Titan模型,并且在SuperGLUE和GLUE都超过了人类排名第一的水平,以及基于层次化多任务学习的文心ERNIE3.0Zeus。同时为了进一步降低落地门槛,出现了效率高、泛化能力强的轻量级大模型,比如文心ERNIE3.0Tiny。2)对话生成大模型文心PLATO的发布,对话的流畅性得到了很大提升。3)文心ERNIE在跨模态、跨语言以及长文档、图模型等方面获得了非常好的发展,在各种榜单尤其是视觉语言相关的榜单上获得第一百,比如文心ERNIE-ViLG2.0,该模型可以生成语义更相关、质量更高的图片。文心一言整合了过往关键技术,在文心知识增强大模型ERNIE及对话大模型PLATO的基础上研发,基于飞桨深度学习平台训练和部署,其关键技术包括,有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。前三项是这类大语言模型都会采用的技术,在ERNIE和PLATO模型中已经有应用和积累,文心一言中又进行了进一步强化和打磨,做到了更懂中文、更懂中国文化、更懂中国的使用场景;后三项则是百度已有技术优势的再创新。ERNIE3.0系列模型(ERNIE3.0、ERNIE3.0Titan、ERNIE3.0Zeus)有四大特点:从大规模知识图谱和海量无结构数据中学习,突破异构数据统一表达的瓶颈问题。同时输入大规模图谱和相应无标注、无结构化的文本,通过文本的Mask,能够推理这个知识图谱里的关系,从而使这个模型具有知识推理能力。融合了自编码和自回归的结构,使模型既可以做语言理解,也可以做语言生成。在做语言理解时,模型拥有上下文相关的信息,从而做语言理解。在生成的时候,由于模型只看到了上文,所以只能基于自回归的方式学习。因此,在一个框架中同时能够拥有语言理解和语言生成两种能力非常重要。基于持续学习框架,从不同任务中持续学习。不断从不同的数据和知识上学习,而不断地构建新任务,比如文本分类任务、问答任务、完形填空任务等。大模型从不同任务中持续学习,使能力得到持续提升,拥有更多知识。为了进一步学习特定任务的相关知识,ERNIE3.0Zeus提出了层次化提示(Prompt)学习技术。在数据构造时通过层次化的TextPrompt库将百余种不同的任务统一组织成自然语言的形式,和海量无监督文本以及百度知识图谱联合学习。此外训练过程引入了层次化的SoftPrompt建模了不同任务之间的共性与特性,进一步提升了模型对于不同下游任务的建模能力。此外,通过持续学习对百余种不同形式的任务数据,实现了任务知识增强,显著提升了模型的零样本/小样本学习能力。PLATO(TowardsBuildinganOpen-DomainChatbotviaCurriculumLearning)是文心一言的另一项关键技术,主要作用是多轮对话,其发展经历了三个阶段。1)2019年10月,百度首次发布了PLATO对话模型,其是全球首个大规模变量对话模型,刷新开放领域对话效果。2)2020年7月,发布PLATO-2,其是基于课程学习的对话生成模型,进一步刷新了开放领域对话效果。2020年10月,PLATO-2斩获全球对话技术竞赛DSTC-9五项冠军。3)2021年9月,发布PLATO-XL,其是首个百亿参数中英对话预训练生成模型。PLATO在预训练模型之上,对对话能力进行增强,让对话具有人格属性,包括人设稳定性、知识增强、跨模态对话、情感抚慰、主动对话、长期记忆等。同时,PLATO也已应用到百度的各个产品线,比如:小度聊天,百度推出的虚拟人对话,领域对话。同时,百度也通过UNIT平台,对外输出对话技术。2019年,百度首次发布了PLATO对话模型,首次创新性的提出了“隐变量”的概念。开放型对话具有一对多的特点,用户输入query后,系统可以有多种多样的回复。每个回复有不同的性质,比如,输入“我得健身了,不能放纵了”。可以给用户建议、询问、质询、质疑等类型的回复。除了这种关系外,还会有对话背后的场景信息,这会导致开放型对话一对多的关系,这会导致模型学习很困难。如果针对一个输入,有特定的输出,模型的学习会相对简单。但当模型的输出不确定,甚至有多种多样的输出,这就会导致模型学习复杂。针对这一问题,我们提出隐变量建模输入和输出的映射信息。它不是一个显式的建模,而是一个隐式建模输入和每一个输出的对应关系。这就会让原来的输入和输出一对多的关系,转化为一对一的关系。通过在输入增加softtoken的方式,让transformer建立输入和输出之间的关系。Transformer不是独立的编码器和解码器的方式,我们选择了使用编码器和解码器共享参数的方式来实现即unifiedtransformer。预训练分为两个阶段,先根据输入和输出预测隐变量的分布,然后从分布中采样隐变量,将其加入输入中再去学习根据隐变量和输入预测回答的能力。2021年,百度推出PLATO-XL,将模型的规模推进至110亿,模型有72层。同时引入了roleembedding的特征来感知角色信息。在对话上文中,既有用户的输入,也有系统的输入,使用roleembedding来区分用户和系统的角色。在原有transformer模型三个特征,token、sentencetype、position的基础上,模型新增了roleembedding的信息,能让模型更好的掌控角色。2.1.2文心CV大模型文心CV大模型基于领先的视觉技术,利用海量的图像、视频等数据,为企业和开发者提供强大的视觉基础模型,以及一整套视觉任务定制与应用能力。百度文心发布了VIMER系列的CV大模型,视觉自监督预训练大模型VIMER-CAE创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架,在图像分类、目标检测、语义分割等经典下游任务上刷新SOTA结果。在此之上,多任务学习模型VIMER-UFO2.0可抽取轻量级小模型,兼顾大模型效果和小模型推理性能,单模型覆盖20多个CV基础任务,在28个公开测试集上效果刷新SOTA。端到端文档OCR表征学习预训练模型VIMER-StrucTexT2.0解决了训练数据匮乏和传统OCR+NLP链路过长导致的模型表达能力不足、优化效率偏低等问题,能够广泛应用于各行各业行的文档、卡证、票据等图像文字识别和结构化理解。VIMER-CAE基于自监督图像掩码建模原理,创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架,对编码模块和解码模块进行分离,通过编码模块对输入的图像块进行特征表达,并利用隐式上下文回归和解码模块对输入图像的掩码块进行特征表达恢复,在图像掩码建模问题上提高了预训练模型的图像表征能力。基于VIMER-CAE的预训练模型在下游各类图像任务上取得了明显的效果提升,其中在目标检测、实例分割、语义分割等任务的指标上达到最优水平。VIMER-UFO2.0技术方案的主要内容包括:1)AllinOne——行业最大170亿参数视觉多任务模型,覆盖人脸、人体、车辆、商品、食物细粒度分类等20+CV基础任务,单模型28个公开测试集效果SOTA;2)OneforAll——首创针对视觉多任务的超网络与训练方案,支持各类任务、各类硬件的灵活部署,解决大模型参数量大,推理性能差的问题。针对大模型的开发和部署问题,VIMER-UFO给出了OneforAll的解决方案,通过引入超网络的概念,超网络由众多稀疏的子网络构成,每个子网络是超网络中的一条路径,将不同参数量、不同任务功能和不同精度的模型训练过程变为训练一个超网络模型。训练完成的VIMER-UFOOneforAll超网络大模型即可针对不同的任务和设备低成本生成相应的可即插即用的小模型,实现OneforAllTasks和OneforAllChips的能力。VIMER-UFO2.0单个模型一套参数,在不进行下游fine-tuning的情况下,在28个主流的CV公开数据集上取得了SOTA的结果。同时,尽管VIMER-UFO2.0大模型参数量达到了170亿,得益于Task-MoE稀疏结构,每个任务推理时只需激活部分参数,计算量相当于6亿参数模型规模,加速比接近30倍。VIMER-StrucTexT2.0是端到端文档OCR表征学习预训练模型,首次创新性地提出“单模态图像输入、多模态表征学习”预训练框架,仅通过单一文档图像的输入,就能让模型充分捕获语义和结构信息。经过大规模文档图像数据充分学习后的预训练模型,显著提高文档理解全景应用任务效果,包括文档图像分类、文档版式分析、表格结构解析、文档OCR、端到端信息抽取等。VIMER-StrucTexT2.0同时解决了训练数据匮乏和传统OCR+NLP链路过长导致的模型表达能力不足、优化效率偏低等问题,能够广泛应用于各行各业行文档、卡证、票据等图像文字识别和结构化理解。VIMER-UMS(UnifiedMulti-SourcePre-trainingforProduct),是百度基于海量的互联网商品图文信息提出的多源信息统一建模的商品图文表征预训练模型,也是行业首个统一视觉单模态与多源图文模态表征的商品多模态预训练模型。针对图文多模态建模中模态信息残缺问题,通过构建视觉特征与多源图文对比的多任务学习框架,实现统一图文表征预训练同时覆盖商品视觉单模态、多模态识别与检索任务,可以显著改善商品视觉检索和商品多模态检索体验。VIMER-UMS基于端到端Transformer训练方式,通过视觉编码、文本编码、融合编码、搜索查询编码,提供多源商品信息的统一表达结构。由于现有主流多模态预训练方法依靠语言作为弱监督关联信号,视觉表征能力存在退化现象。为了解决该问题,VIMER-UMS通过建立视觉与多源图文对比多任务预训练,实现视觉特征、图文特征的统一增强表征。2.1.3文心跨模态大模型文心·跨模态大模型基于知识增强的跨模态语义理解关键技术,可实现跨模态检索、图文生成、图片文档的信息抽取等应用的快速搭建,落实产业智能化转型的AI助力。ERNIE-ViL是业界首个融合场景图知识的多模态预训练模型。ERNIE-ViL将场景图知识融入到视觉-语言模型的预训练过程,学习场景语义的联合表示,显著增强了跨模态的语义理解能力。ERNIE-ViL还在包括视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本检索等5项典型多模态任务中刷新了世界最好效果。并在多模态领域权威榜单视觉常识推理任务(VCR)上登顶榜首。基于文本中解析出的场景图,ERNIE-ViL提出了三个多模态场景图预测任务:物体预测,随机选取图中的一部分物体,然后对其在句子中对应的词进行掩码和预测;属性预测,对于场景图中的属性-物体组合,随机选取一部分词对其中属性词进行掩码和预测;关系预测,对于场景图中的物体-关系-物体三元组,对其中的关系词进行掩码和预测。ERNIE-ViL在场景图里加入知识,通过它的文字信息去构建场景图,使得模型能够理解图中细粒度的语义。举例而言,下图中有6个人,但只有5个人运动员,因为其中一个是裁判,模型要能依据运动场景进行判断,才能给出正确答案。文心ERNIE-ViLG2.0采用基于知识增强算法的混合降噪专家建模,是全球首个知识增强的AI作画大模型,也是目前全球参数规模最大的AI作画大模型,在文本生成图像公开权威评测集MS-COCO和人工盲评上均超越了StableDiffusion、DALL-E2等模型,取得了当前该领域的世界最好效果,并在语义可控性、图像清晰度、中国文化理解等方面展现出了显著优势。文心ERNIE-ViLG2.0通过视觉、语言等多源知识指引扩散模型学习,强化文图生成扩散模型对于语义的精确理解,以提升生成图像的可控性和语义一致性。同时,ERNIE-ViLG2.0首次引入基于时间步的混合降噪专家模型来提升模型建模能力,让模型在不同的生成阶段选择不同的“降噪专家”网络,从而实现更加细致的降噪任务建模,提升生成图像的质量。2.2算力百度早在2011年就开始布局AI芯片领域,并逐步建立AI技术的全栈布局,拓展了全面的AI应用场景。同时,拥有数亿用户规模的产品百度搜索,以及服务各个行业的百度智能云等。同时,百度依托昆仑芯科技前身为百度智能芯片及架构部,昆仑芯是百度自主研发的云端通用AI芯片,目前,昆仑芯1、2代已实现量产,并达到数万片规模部署。昆仑芯3代将于2024年初量产。依托深厚技术沉淀,昆仑芯科技核心团队于2017年发布100%自研、面向通用AI计算的芯片核心架构昆仑芯XPU,并从AI落地的实际需求出发,按照复杂前沿的人工智能场景需求来迭代架构。2018年至今,昆仑芯云端AI芯片已经迭代两代,并实现数万片的规模落地。其中,昆仑芯1代已经在百度搜索引擎、小度等业务中部署超过两万片,昆仑芯2代也于2021年8月实现量产,并已在互联网、智慧工业、智慧城市、智算中心、智慧交通、科研等领域实现规模化部署,服务来自千行百业的不同客户。针对大模型,昆仑芯持续打磨部署优化方案,领跑产业落地。昆仑芯已将大模型的Transformer相关优化技术沉淀为重要基建,优化后的性能比原有方案提升5倍以上,压缩显存30%以上。以文生图大模型为例,昆仑芯已跑通一条端到端优化、规模落地之路。AI绘画模型的推理算力及显存需求随图像分辨率增大而指数级增加,同时,图像生成需要循环采样数十次,产业落地动辄需要高昂成本的部署集群,严重阻碍了AIGC模型大规模商业化落地。2022年第四季度,昆仑芯联合客户,基于飞桨PaddlePaddle发起了端到端联合优化项目。在2-3周内,项目组快速完成端到端优化,最终实现输入文本后2秒出图的优化效果,性能提升近8倍。目前,昆仑芯AI加速卡R200已在该客户的大模型场景完成规模部署,性能数据全面超越同系列主流推理卡,基于昆仑芯AI加速卡R200高效运算与推理能力,综合优化方案,在dpm-25steps算法下,利用昆仑芯AI加速卡R200,生成1024*1024图像时的推理速度为10.89iters/s,相比同能力的主流推理卡快20%;昆仑芯AI加速卡R200拥有32GGDDR6显存,为大规模参数提供更大的存储容量、更高带宽的内存访问、更稳定的性能,生成更高分辨率的图片,为用户提供高性价比服务。2.3平台百度飞桨是我国首个自主研发的产业级深度学习开源开放平台,飞桨在平台功能上具备丰富的产业级模型库、端到端开发套件、工具组件,以及零门槛AI开发平台EasyDL和全功能AI开发平台BML、学习与实训社区AIStudio,高效支持深度学习模型开发、训练、部署等全流程,降低AI技术应用门槛;在生态上,飞桨推动构建了全方位的生态体系,包括开发者生态、教育生态、企业生态、硬件生态,通过生态共享共创加速产学研用协同创新发展。飞桨官方精选产业算法新增100多个,累计超过600个,覆盖计算机视觉(PaddleCV)、自然语言处理(PaddleNLP)、推荐(PaddleRec)、语音(PaddleSpeech)四大应用领域,超过95%的用户使用模型库。包含经过产业实践长期打磨的主流模型,42个精度与性能平衡的产业级PP系列特色模型,以及文心系列大模型。飞桨硬件生态持续繁荣,包括Intel、NVIDIA、Arm等诸多芯片厂商纷纷开展对飞桨的支持,并主动在开源社区为飞桨贡献代码。飞桨还与飞腾、海光、鲲鹏、龙芯、申威等CPU进行深入融合适配,并结合麒麟、统信、普华操作系统,以及昆仑芯、海光、寒武纪、瑞芯微、算能、高通、Graphcore、Ambarella等AI芯片深度融合,与浪潮、中科曙光等服务器厂商合作形成软硬一体的全栈AI基础设施。当前已经适配飞桨的芯片或IP厂商超过40家,处于业界领先地位。2022年5月,飞桨联合硬件生态伙伴发布“硬件生态共创计划”,在联合研发、资源共享、联合授权、培训赋能等多个维度全面合作。2022年11月,飞桨“硬件生态共创计划”成员已经从13家增加至28家。飞桨平台服务规模快速渗透,技术能力创新卓著。截至2022年11月,飞桨已凝聚国内规模最大的开发者群体(535万)、服务20万企事业单位,基于飞桨平台创造出67万个AI模型,超越TensorFlow和PyTorch成为国内服务规模最为广泛的框架工具,不断夯实AI工业大生产的基础,有力推动了我国实体经济的高质量发展。百度飞桨从2016年经历多年积累、沉淀、探索后,创新成果已经逐步涌现。飞桨PaddleClas、PaddleDetection、PaddleGAN、PaddleOCR、PaddleSpeech等开发套件发布后多次登顶PaperswithCode和Github趋势榜单,引起业界高度关注。此外,针对国内市场需求特点,飞桨提供了大量经过真实应用场景有效验证的高精度、便捷部署的官方模型库,相关算法及API更加强调对中文情境的支持优化,能够广泛支持国产硬件平台,技术能力优势逐步凸显,相较于TensorFlow和PyTorch成为更满足国内技术应用需求的开发框架。2.4应用百度文心大模型积极拓展内外部应用,目前面向公众和企业用户同时进行开放测试。内部应用层面,文心大模型已经率先应用于百度搜索、信息流、智能驾驶、百度地图、小度智能屏等内部重要产品上。百度在5月25日的移动生态大会上展示了全新的AI搜索体系。1)极致满足:搜索结果不再是简单的文本段落,而是多模态的,包括相关的图片和视频,省去了用户的浏览和总结时间。对于那些相对简单但没有现成答案的问题,AI可以展示逻辑推理和计算能力,直接给出可用的结果。对于开放的多答案问题,百度AI搜索可以整合多个符合要求的答案,并列出引用和选择依据,满足用户需求。此外,搜索引擎还能自动定位到视频中相关内容的位置,方便用户查看。根据介绍,现在百度搜索每天有70%的问答需求能在首条搜索结果中得到满足,这一比例在半年前只有40%,这种改进进一步提升了需求,现在每天有超过3000万次的新增问答需求。2)AI伙伴:除了提供丰富准确的搜索结果,百度还提出了全能的"AI伙伴",使人们能够以最直接的方式获取人工智能的能力。通过AI伙伴,人们可以使用自然语言或语音作为输入,获得准确详细的搜索结果。AI伙伴不仅会在生成答案时标出重点并列出引用链接,还能调用其他工具和服务完成任务,并接受进一步追问或指正。AI伙伴还可以根据用户意图生成图片、进行文案写作,在不同任务中扮演具体的角色,如旅行时可以充当导游,写作业时可以充当老师。3)AIBOT:以往人们对搜索引擎结果的准确性有所顾虑,因为无论AI算法有多准确,始终只是概率统计的结果,并不能代表专家意见。为解决这个问题,百度推出了全新的AIBOT。类似于ChatGPT的插件,AIBOT通过与第三方技术提供商的合作,使搜索可以自动接入特定能力。目前亮相的AIBOT覆盖了创作、商业、机构、服务和品牌等多个领域,它们可以利用专业领域知识直接回答用户的问题。百度文心围绕大模型产业应用的不同研发环节,面向各阶段不同技术、业务背景的开发者或用户,打造系列工具平台与场景化产品。大模型套件:百度文心推出新一代预训练范式的NLP算法定制开发工具集ERNIEKit,面向NLP工程师,提供全流程大模型开发与部署工具集,端到端、全方位发挥大模型效能。包括数据标注与处理、大模型精调、大模型压缩、高性能部署、场景化工具五大模块能力;AI开发平台:百度AI开发以双平台模式驱动,面向应用开发者或业务专家提供零门槛AI开放平台EasyDL,面向AI算法开发者提供全功能AI开发平台BML。EasyDL使用百度文心NLP、CV、跨模态大模型作为训练基座,利用少量数据即可获得理想的模型效果,具有零门槛、高精度、低成本数据、超灵活部署四大核心优势。BML深度融合文心大模型,提供Notebook建模、预置模型调参、可视化建模、模型产线建模、Pipeline建模、实验管理等功能,兼具性能和性价比;3、腾讯腾讯构建了“太极机器学习平台+混元大模型”,同时腾讯启动了“混元助手”知识增强大语言模型项目。2016年,腾讯成立了AILab实验室。2022年4月,腾讯对外披露了混元大模型,涉及自然语言处理、计算机视觉、多模态等多个领域。腾讯自研的太极机器学习平台为混元大模型提供算力,可支持10TB级模型训练、TB级模型推理计算能力等。腾讯AILab是腾讯的企业级AI实验室,于2016年4月在深圳成立,目前有100多位顶尖研究科学家及300多位应用工程师。2017年公司提出了“MakeAIEverywhere”的战略愿景,和“基础研究—场景共建—能力开放”的三层AI战略架构。作为衡量机构研究实力的重要标准,成立四年多来,腾讯AILab的基础研究成果已覆盖CVPR、ACL、ICML、NIPS及NatureCommunications等国际顶级AI学术会议或期刊,发表论文超过460篇,位居国内企业前列。截止2020年3月,腾讯拥有AI全球专利超过6500个,中国专利超过5000个。3.1模型2022年4月,腾讯首次披露了混元AI大模型研发进展,先后在MSR-VTT、MSVD、LSMDC、DiDeMo和ActivityNet五大最具权威的跨模态视频检索数据集榜单中取得第一名,实现跨模态检索领域的大满贯。当月,腾讯混元AI大模型又在中文语言理解评测基准CLUE分类榜中取得第一名,分数突破了80.000分,接近人类语言理解能力,刷新该榜单历史记录。这是混元AI大模型在斩获跨模态检索榜单大满贯后,取得的又一突破性进展,展现了该模型在自然语言处理上的实力。2022年5月,腾讯混元AI大模型在CLUE总排行榜、阅读理解、大规模知识图谱三个榜单同时登顶,一举打破三项纪录。据了解,CLUE总榜由分类任务和阅读理解任务构成。腾讯混元AI大模型在一个月内先后实现分类任务、阅读理解双佳绩,最终以84.730的成绩取得总榜第一。之后混元AI大模型又在多模态理解领域国际权威榜单VCR(VisualCommonsenseReasoning,视觉常识推理)中登顶,两个单项成绩和总成绩均位列第一。这是继在跨模态检索领域实现大满贯、CLUE自然语言理解分类榜及CLUE总榜登顶后,混元AI大模型的又一重大突破,展现了其在多模态理解领域的强大实力。3.2算力腾讯发布大模型算力集群HCC大幅提速模型训练。大模型进入万亿参数时代,单体服务器提供的算力有限,需要将大量服务器相连,协同优化单机算力、网络架构和存储性能,打造大规模、分布式的高性能计算集群。以新一代集群为标志,基于自研芯片、星星海自研服务器和分布式云操作系统遨驰,腾讯云正通过软硬一体的方式,打造面向AIGC的高性能智算网络,持续加速全社会云上创新。2023年4月14日,腾讯云发布新一代HCC高性能计算集群,其采用最新一代星星海自研服务器,搭载NVIDIAH800TensorCoreGPU,并基于自研网络、存储架构,带来3.2T超高互联带宽TB级吞吐能力和千万级IOPS。实测结果显示新一代集群算力性能较前代提升3倍。2022年10月,腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于新一代集群,训练时间将进一步缩短至4天。服务器单机性能是集群算力的基础,新一代集群的单GPU卡在不同精度下,支持输出最高1979TFlops的算力。针对大模型场景,星星海自研服务器采用6U超高密度设计,相较行业可支持的上架密度提高30%;利用并行计算理念,通过CPU和GPU节点的一体化设计,将单点算力性能提升至更高。此外,新一代集群集成了腾讯云自研的TACO训练加速引擎,对网络协议、通信策略、AI框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。腾讯太极机器学习平台自研的训练框架AngelPTM,也已通过腾讯云TACO提供服务,帮助企业加速大模型落地。依托分布式云原生的治理能力,腾讯云智算平台提供16EFLOPS的浮点算力,规模业界领先。通过腾讯云的大模型能力和工具箱,企业可结合产业场景数据进行精调训练,提升生产效率、快速创建和部署AI应用。3.3平台腾讯自研搭建了业界一流的太极机器学习平台,致力于让用户更加聚焦业务AI问题解决和应用,一站式的解决算法工程师在AI应用过程中特征处理,模型训练,模型服务等工程问题。结合对用户的习惯理解和功能沉淀,太极在产品层提供数据/特征工程,模型训练,模型服务三块。闭环了用户离线训练到在线服务的应用,包含了不同场景下的数据访问诉求,不同训练模型的诉求,在线服务可靠性的诉求。算法框架&组件层提供了机器学习、深度学习核心组件。可支持10TB级模型训练、TB级模型推理和分钟级模型发布上线,扩展集群规模则可支持更大的模型训练和推理,为实际业务提供大模型的情况下,同时具有很高的性能,达到行业领先水平。太极机器学习平台采用了分布式参数服务器架构,其是业界第一梯队企业们公认的最佳选择。这种架构的特点是,存储模型参数和执行模型计算,这两种任务在分别的服务器上运行,增加更多服务器就可以支持更大、计算需求更高的模型。太极机器学习平台中的参数服务器系统AngelPS也是腾讯自研的成果,现在不仅可以承载10TB级模型的训练,对多维特征融合、复杂模型结构等更高级、更前瞻性的功能也有优秀支持。同时太极机器学习平台还具备超大模型在线推理服务的能力。推理计算方面,不仅支持常规的CPU计算,还支持复杂模型的GPU计算加速;存储上,根据在线推理模型大小,自适应选择小模型本地内存加载和大模型AngelPS远程查询的部署策略;在线服务运营上,平台具备多级容灾能力,脏模型秒级回滚能力,以及完备的系统和业务运行实时指标监控和报警系统。太极AngelPTM的设计目标是依托太极机器学习平台,为NLP、CV和多模态、AICG等多类预训练任务提供一站式服务。其主要由高性能训练框架、通用加速组件和基础模型仓库组成。太极AngelPTM主要有三大部分:1)高性能训练框架:包含大模型训练框架ZeRO-Cache,高性能MOE组件,以及3D并行和自动流水并行策略;2)通用加速组件:包含可减少显存并提高精度的异构Adafactor优化器,可稳定MOE半精度训练loss的Z_loss组件,选择性重计算组件和降低通信代价的PowerSGD组件;3)基础模型仓库:包含T5、BERT、GPT以及Transformer等基础模型。3.4应用腾讯AILab的AI技术也广泛应用在微信、QQ和腾讯觅影等上百款产品。行业应用上,实验室研发出的围棋AI「绝艺」屡获国际赛事冠军,是科技赋能国粹文化的代表;与王者荣耀研发的策略协作型AI「绝悟」达到职业水平,代表国际水准的研究能力。布局前沿多模态数字人技术,探索数字内容生成的新可能。实验室支持的国家级AI+医疗标杆产品「腾讯觅影」与「腾讯医典」也不断取得技术突破,「腾讯觅影」从医疗影像延伸到辅助诊疗等功能,截止2018年10月,项目已落地100多家全国三甲医院,服务患者近40万人。2020年,实验室发布自研智能显微镜及AI药物发现平台「云深智药」,并初步探索AI+农业智慧温室项目。AI+生命健康:在医疗领域,腾讯AILab与北京协和医院共同发布了具有完全自主知识产权的便携式智能化手术导航系统,实现高精度、便携式、低成本等特点,就像给临床医生的手术配上了GPS,辅助医生精准定位隐藏在脑组织中的病变。该系统在协和神经外科已成功开展了50余例临床试验,涉及脑出血、垂体腺瘤、胶质瘤、脑膜瘤、颅咽管瘤等多种疾病,临床初步应用取得成功。腾讯AILab还与迈瑞共同研发了全自动外周血细胞形态学分析仪,并完成了创新医疗器械特别审查申请公示,正式进入国家药品监督管理局创新通道,成为国内体外诊断行业首个进入该程序的AI类产品。该分析仪通过创新性的形态学检测方案,以优异的指标及效率,实现白血病等高发恶性肿瘤的早期筛查辅助临床诊断。AI+内容:腾讯AILab持续探索AI与人协同合作的内容生成技术,此前相继发布了文本理解系统TexSmart、交互翻译系统TranSmart等,并且创新性地探索了AI在游戏电竞、直播等领域的应用。智能写作方面,22年4月,发布智能写作助手「文涌(Effidit)」,用技术助力文思泉涌。初版本融合了知识抽取、文本理解、文本生成、大规模预训练模型、经典语言模型、搜索等多项技术积累,提供多维度文本补全,多样化文本润色等核心功能,及例句推荐、文本纠错、云输入法、学术专业版等完整的辅助写作能力。22年12月,文涌2.0版本发布,新版本增加了风格化文本续写等众多功能,共包含「文本补全」、「智能纠错」、「文本润色」、「超级网典」四个模块,其中「文本补全」和「超级网典」旨在帮助写作者在创作时开阔思路、提供弹药,而「智能纠错」和「文本润色」则是重在提升创作后的文本水平和质量。部分功能目前已接入搜狗输入法PC端(「智能汪仔」)和QQ浏览器移动端。4、字节相对于阿里、百度、腾讯均已经推出大模型及布局,字节目前仍未公布内部架构、产品体系及大模型的最新进展。字节的AI布局可以追溯到2016年成立的字节AILAB的成立,AILab对自身的定位是作为公司内部的研究所和技术服务商,为平台输出海量内容提供AI技术支持。AILab最初成立的时候聚集了马维英、李航、李磊等大牛,此后马维英离开团队回到学界,目前阿里M6大模型的前带头人杨红霞已加入字节AILab(人工智能实验室),参与语言生成大模型的研发。字节目前大模型仍处于发展阶段,现以旗下云平台火山引擎在算力、平台和生态端布局为主。大模型团队由字节搜索部门牵头,搜索业务部门、AILab和AML(应用机器学习)团队均调任部分人马支援,目前团队规模在40人左右,图片大模型团队由产品研发与工程架构部下属的智能创作团队牵头;团队负责人间接和直接汇报对象,则均为TikTok产品技术负责人朱文佳。根据调研情况,字节目前在仍在做模型调优,计划23年6-9月达到3.5模型相当的水平,9月之后语言模型可以同步做发布和多模态模型训练,语言模型发布至少要到9月之后。后面会基于当前的语言模型,做多模态的模型,多模态相对来说难度会更大,至少要等到24年3-4月。4.1模型字节在AI方面的积累主要集中在机器翻译、智能语音、视频图像和多模态四个领领域。字节跳动的研究成果包括非自回归模型DA-Transformer、端到端语音到文本翻译模型ConST、多颗粒度的视觉语言模型X-VLM、图片和文本统一生成模型DaVinci等。在机器翻译方面,字节旗下火山翻译团队2022年在SC22、ACL2022、ICML2022等顶会发表学术成果10余篇,受邀参加了英伟达GTC2022全球AI开发者大会等知名技术论坛,申报翻译技术专利15项,荣获中国专利优秀奖在WMT2022的非洲语向任务上夺得桂冠。目前,火山翻译提供9大领域翻译,其中包括但不限于人工智能、互联网行业生物医疗、科学技术、金融财经,支持共114个语向的翻译,其中包括伊博语、亚美尼亚语等小语种。其中,字节和清华联合发布了DA-Transformer,DA-Transformer在机器翻译上首次达到了Transformer同样的精度,而处理的速度提高了7~14倍。DA-Transformer不仅可以用于机器翻译,而且可以用于任意的序列到序列任务。在多模态方面,2022年3月,字节发布的text2image模型实现了文生图能力,实验数据显示,其效果比VQGAN-CLIP要真实,尤其是泛化能力还比不少用大量文本-图像数据对训练出来的模型要好很多。2022年5月,字节跳动AILabResearch团队提出了X-VLM,首次提出学习多粒度的视觉和语言对齐。实验证明,这种预训练方法十分高效,模型规模无需很大,预训练数据无需很多,仅216M参数量的X-VLM就能在广泛的多模态任务上获得了十分优秀的表现,例如:图像文本检索、基于图片的问答或推理、视觉定位、图片描述生成。目前,X-VLM在字节跳动的真实应用场景上超过了业界常用的多个模型,完成了上线,服务于如今日头条等业务。相关论文已被ICML2022接收。4.2算力2023年4月18日,火山引擎在春季火山引擎FORCE原动力大会上正式发布自研DPU等系列云产品,并正式推出智能推荐-高速训练引擎,支持100GB至10TB以上超大模型的高效训练,采取软硬一体优化设计等,让面向推荐场景的高速训练更快,成本更低。火山引擎智能推荐-高速训练引擎具备软硬一体、细粒度算子优化、分布式训练和推理三大特点,1)软硬一体化:针对关键场景的超大模型,火山引擎智能推荐-高速训练引擎提供了全GPU方案,可以支持100GB-10TB的超大模型的高速训练,综合ROI是CPU的5倍;覆盖更多场景的模型,提供了GPU+CPU混训方案,综合ROI是CPU的2倍;2)细粒度算子优化:针对搜索、推荐和营销场景,优化细粒度算子,使得在模型推理的过程中有更好的性能表现。在训练时,通过算子融合并精细调优,性能提升20%;在推理时,通过算子优化,性能提升40%;3)分布式训练和推理:智能推荐-高速训练引擎为了保障系统的稳定性,支持训练和推理的全方位容错,当某一个节点故障时,可以快速恢复;支持分布式推理,包括多分片、多副本,从而保证线上服务的高可用。4.3平台2022年7月,火山引擎正式发布机器学习平台,达到0碎片的极致性能和优秀的开发体验,火山引擎机器学习平台解决方案已在金融、零售、能源、教育等行业落地,帮助更多企业不断缩短智能业务研发周期,提高模型上线效率和GPU使用率,并依靠定制化的智能模型实现业务增长。火山引擎在数据管理、资源管理、流程和模型三大领域具备核心优势。1)在数据管理场景下,火山引擎机器学习平台可通过结构化、非结构化数据库、数据协同标注与版本化管理、多租户安全等,保护企业数据资产,为机器学习、深度学习开发助力;2)在资源管理场景下,机器学习平台可通过GPU、CPU调度,模型分布式训练,资源动态分配,弹性线上推理服务等,提供机器学习模型开发所需要的算力。无论是在字节跳动内部还是在外部客户,该平台都已实现万级GPU算力资源的池化管理、调度和共享;3)对于流程和模型管理,机器学习平台提供DevOps能力。不同于一般业务,机器学习应用的发布包含了所有规则和处理逻辑,在应用上线后,由于需要周期性地进行更新、优化迭代,模型本身对外部数据有强依赖,这使得整个DevOps更复杂。火山引擎机器学习平台构建了DevOps流水线,实现从数据处理、模型训练、模型评估、模型发布的持续集成,提升端对端业务上线效率。平台也支持通过超参数自动搜索、多模型自动比对与评估、模型版本化管理、线上模型运维等,降低模型开发和维护门槛。4.4应用火山引擎的AI场景产品主要包括智能创作、智能体验以及智能营销,目前已服务数百家客户,分别在视频创作、互动创作、直播短视频构建中推动客户业务增长。在内容视频化和互动趣味化的大趋势下,火山引擎创作与体验场景提供了从算法到平台的全域解决方案,在AI底层算法的支持下,通过全品类的正版素材和特色化的创作工具,快速完成视频、特效、虚拟形象、XR等创新内容。不管是企业用户还是个人用户,人人都可拥有创作比较专业的短视频的能力。智能创作云是火山引擎发布的面向企业的创作AI产品,智能创作云包括众多AI创作工具,比如图文转视频能力,用户只需输入文字即可生成视频,AI通过理解文字内容,搭配适合的图片、音乐和转场等,快速生成一支专业的视频;比如视频模板,剪同款功能就是把优质视频内容抽象成脚本,用户只要会打开摄像头拍摄,就有了专业拍、剪视频的能力,极大降低了创作门槛,保障了内容生产的质量。字节旗下云服务平台云服务平台火山引擎提供有关音视频的智能美化特效。智能美化特效基于自主研发的特效SDK,提供多项图像渲染和算法,提供贴纸特效/美化滤镜/人像智能/计算机视觉基础检测识别等功能,用于拍照工具、直播、短视频、在线教育、体感游戏等场景。目前,智能美化特效拥有超过200个自研算法、具备小于2ms的人脸检测速度,提供超过90万个抖音同款特效贴纸和滤镜。此外,字节在内部的相关产品持续引入AI。2022年5月,字节推出海绵乐队App,海绵乐队是一款手机端的便携式音频创作工具,在实现传统的录音、效果器同时,引入大量A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论