华为算力分析研究_第1页
华为算力分析研究_第2页
华为算力分析研究_第3页
华为算力分析研究_第4页
华为算力分析研究_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华为算力分析研究2024年国产AI服务器总规模有望达到400亿我国关键芯片行业已从幕后逐步走向台前复盘我国超算、普通云计算算力发展史可以发现,从8年前开始,我国的关键芯片行业已从幕后到台前:1)超算领域,2015年4月美国商务部就开始拒绝Intel、AMD等主要厂商向中国出口CPU芯片,此后我国的《“十三五”国家科技创新规划》明确提出要突破超级计算机中央处理器(CPU)架构设计技术,根据前瞻经济学人,2022年中国TOP100高性能计算机中自主研发的集群占95%,至今我国超算行业已进入互联互通及使用率提升阶段;2)云计算领域,2019年开始,我国党政信创大规模启动,以PC为载体的国产算力经历了“可用”到“好用”的政策驱动+产品磨合迭代期,目前已进入八大行业信创客户“主动用”的半政策半市场驱动+性价比提升期。2024年国产AI服务器市场规模有望达到400亿根据我们的《算力框架报告》测算,考虑到我国国产AI芯片供应商的产能供应、生态适配、综合性价比等情况,国内AI芯片与英伟达H100芯片相比仍有一定差距,因此我们认为政策性客户有望逐步全面转向国产AI芯片,商用客户如互联网有望将百亿参数模型的部分训练和推理需求转向国产AI芯片,2024年我国国产芯片主要需求将包括:政府智算中心、运营商、金融、第三方大模型厂商、互联网厂商,我们预计2024年国产AI芯片出货量为30.7万张,潜在市场规模约为307亿,折合AI服务器3.84万台,潜在市场规模为409.33亿。华为昇腾——世界AI算力新星生态:英伟达基于CUDA构筑坚固生态护城河CUDA(ComputeUnifiedDeviceArchitecture)生态为从CUDA编程框架发展出的一系列软硬件及扩展体系。底层硬件包括主要负责向量运算的CUDACore(FP32/FP64)以及主要负责低精度浮点运算的TensorCore(FP16、INT8),软件则包括中层API接口、驱动、编译器以及上层CUDA-X系列算法库(包括cuDNN、cuML、TensorRT、cuDF、cuGraph及其他13个以及超过13个的其他库),基于CUDA软件栈进行第三方应用及工具扩展就形成了广义的CUDA生态体系;生态优势凸显。自2006年推出至今,CUDA已拥有超400万开发人员,下载量累计4000万,在超过3000个应用程序中被广泛部署,目前已经成为全球领先的AI加速计算生态。生态:对标英伟达,华为昇腾为世界提供AI算力的第二选择昇腾计算产业:基于昇腾系列(HUAWEIAscend)处理器和基础软件构建的全栈AI计算基础设施、行业应用及服务,包括昇腾系列处理器、系列硬件、CANN(ComputeArchitectureforNeuralNetworks,异构计算架构)、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。华为昇腾AI产业生态包括昇腾AI基础软硬件平台,即Atlas系列硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX以及一站式开发平台ModelArts等。基于昇腾910系列板卡,华为推出了AI训练集群Atlas900、AI训练服务器Atlas800、智能小站Atlas500、AI推理与训练卡Atlas300和AI加速模块Atlas200,完成了Atlas全系列产品布局,支持万亿参数大模型训练,同时覆盖云、边、端全场景。华为提出了具备分层开放、体系协同、敏捷高效、安全可信等特征的,全行业通用的行业智能化参考架构。其中智能底座提供大规模AI算力、海量存储及并行计算框架,支撑大模型训练,提升训练效率,提供高性能的存算网协同。根据场景需求不同,提供系列化的算力能力。适应不同场景,提供系列化、分层、友好的开放能力。另外,智能底座层还包含品类多样的边缘计算设备,支撑边缘推理和数据分析等业务场景。处理器:神经网络拟合过程需要芯片具备大规模简单计算能力类GPU芯片更强调并行计算能力,适用于大规模简单计算场景。CPU为顺序执行指令,重点是减少指令执行延迟,将大量芯片面积专门用于可减少指令延迟的功能,例如大缓存、更少的ALU和更多的控制单元;GPU专为大规模并行性和高吞吐量而设计,使用大量SM(流式多处理器)来最大化其计算能力和吞吐量,它们使用非常少量的芯片区域作为缓存和控制单元,使得其具有很高的延迟;神经网络的拟合过程涉及海量的函数运算、对计算资源的要求非常高,类GPU芯片为目前性价比首选。在AI运算中,像素、字符等经常会被转化成为矢量数据进行处理,处理方式主要是MAC(乘积累加)运算,即先做乘法然后再把结果相加循环往复,如在图像识别中每个像素都有一个向量值,这个值要跟权重信息不断相乘相加最终提取出图像特征;GPU由于运算核心为CPU的上百倍,因而更适用于AI运算,如Intel2023年初推出的最新的数据中心处理器第四代至强可扩展处理器(代号SapphireRapids)最多支持60核,而NvidiaH100GPU则有132个SM,每个SM有64个Core,总共有8448个Core;处理器:华为基于自研达芬奇微架构形成面向AI计算的NPU芯片昇腾AI处理器为华为以面向AI计算为设计理念的自研达芬奇微架构NPU芯片。与基于存储和处理分离的经典冯·诺伊曼结构GPU(如英伟达A100)不同,华为昇腾芯片将存储和处理一体化,用电路模拟人类的神经元和突触结构,将每个神经元抽象为一个激励函数,该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定,使用者通常需要(通过某些特定的算法)调整人工神经网络中突触的取值、网络的拓扑结构等,该过程称为“学习”;因而昇腾AI系列芯片既是NPU(神经网络处理器),也是一个集成了CPU、DVPP以及任务管理器的Soc(高度集成的片上系统),基于该设计理念,单颗昇腾910可以独立完成整个AI的训练流程,最小化与Host的交互,从而充分发挥其算力。昇腾处理器的AICore计算单元专门为AI而生。主要包含矩阵计算单元、向量计算单元、标量计算单元和累加器,分别负责完成张量、向量和标量运算:1)矩阵计算单元特意对矩阵计算进行了深度的优化并定制了相应的矩阵计算单元来支持高吞吐量的矩阵处理,可以用一条指令完成两个16*16矩阵的相乘运算,即16^3=4096个乘加运算(因而也称为达芬奇3DCube技术),并且可以实现FP16的运算精度;2)向量计算单元能够实现向量和标量,或双向量之间的计算,功能覆盖各种基本和多种定制的计算类型,主要包括FP32、FP16、INT32和INT8等数据类型,全面完善了AICore对非矩阵类型数据计算的能力;3)标量计算单元则相当于一个微型CPU,控制整个AICore的运行,可以对程序中的循环进行控制,可以实现分支判断,其结果可以通过在事件同步模块中插入同步符的方式来控制AICore中其它功能性单元的执行流水。计算架构:英伟达基于CUDA编程架构构筑深厚护城河狭义的CUDA是NVIDIA以“软件定义硬件”的思路,专为图形处理单元(GPU)上的通用计算开发的并行计算平台和编程模型,包含有一个指令集架构和相应的硬件引擎,不同领域的开发者可以通过API接口访问GPU的计算资源;CUDA的优势在于其低门槛及高易用性。CUDA具备易部署(用户开箱即用)、开发接口层次灵活(OpenCL、OpenGL类似的一种API)、满足不同领域开发者编程语言(C、C++、Fortran、Python、MATLAB)、品类齐全的工具集(GDB、Nsight、Memcheck等)、众多第三方工具和软件库,大大减少了开发者的编程难度、提升了软硬件计算效率。框架:加入Pytorch社区,加速构建开源生态目前国际主流AI框架为Google-TensorFlow和Meta-PyTorch,产业界以TensorFlow为主,学术界以PyTorch为主,呈现双寡头格局,国产框架MindSpore紧随其后。根据Omdia,开发者选择人工智能框架最重要的因素是易用性、其次是性能,同时在超大规模模型训练能力上,TensorFlow、PyTorch、MindSpore、PaddlePaddle表现较为优秀,均超过其他框架;MindSpore社区生态国内领先。过去三年,昇思社区帮助业界完成了紫东太初、鹏程系列等百亿、千亿级大模型,根据《中国人工智能大模型地图研究报告》中的数据,基于昇思孵化的产业落地大模型,占到国内总数的40%,昇思的开源生态汇集了超过1.3万贡献者,基于MindSpore的顶会论文如今已超过900篇,据PaperswithCode统计,2022年使用MindSpore的顶级会议论文在国内AI框架中排名第一,全球范围内仅次于PyTorch,位列第二;支持国际主流框架,加速生态优势。昇腾CANN具备AI框架适配器FrameworkAdaptor,可支持TensorFlow、PyTorch等国际主流AI框架;此外,10月18日,华为还作为Premier最高级别会员正式加入全球AI开源框架PyTorch社区,目前PyTorch2.1版本已同步支持昇腾NPU,开发者可直接在PyTorch2.1上基于昇腾进行模型开发,基于PyTorch,昇腾已经适配了BLOOM、GPT-3、LLaMA等业界主流大模型,深度优化后性能可持平业界;一体机:联合讯飞发布星火一体机,实现业务场景开箱即用一体机的本质为将IT基础软硬件高度集成于一套完整的硬件设备上的解决方案,与其他方案相比,类似直接购买装好系统的笔记本电脑与自行购买软硬件攒机之间的区别。客户在进行AI训练推理基础设施搭建时,需要采购训练推理服务器、存储设备、网络设备等硬件系统以及操作系统、AI框架、数据库、模型训练和部署工具等软件系统,由于采购规模相对较小,因而在进行单品类采购时的议价能力相对较弱因而整体成本较高,并且不同软硬件系统之间的衔接与调优要求随系统复杂程度提升因而技术门槛较高;一体机将大量软硬件系统进行了高度集成,可以很大程度上降低软硬件投资成本以及安装维护技术门槛,并且从物理层面上解决了数据安全问题,因而我们认为未来政府端的私有化部署将成为首先放量的需求,具备G端真实场景积累的标的有望获益。讯飞星火和华为昇腾联合发布了星火一体机,基于华为鲲鹏CPU+昇腾GPU,具备2.5PFP16智能算力,支持训练和推理,该设备可提供对话开发、任务编排、插件执行、知识接入、提示工程等5种定制优化模式,以及办公、代码、客服、运维、营销、采购等10种以上即开即用的丰富场景包,目前讯飞正和华为一道打造面向超大规模大模型的训练国产算力的集群。华为鲲鹏——信创服务器王者鲲鹏生态:硬件开放、软件开源、使能伙伴、发展人才华为作为鲲鹏计算产业的成员,基于“硬件开放、软件开源、使能伙伴、发展人才”的策略推动鲲鹏计算产业的发展:硬件开放:华为利用自己的硬件能力,对外提供鲲鹏主板、SSD、网卡、模组和板卡,优先支持合作伙伴发展服务器和PC等计算产品;软件开源:华为通过软件开源的方式,共享在基础软件领域的多年积累,使能伙伴发行openEuler和openGauss商业版,繁荣基础软件产业生态;使能伙伴:华为提供鲲鹏开发套件与应用使能套件,帮助开发者加速原生应用开发,使能应用极致性能,构建竞争力领先的行业解决方案;发展人才:华为提供产教融合服务,支持高校基于鲲鹏、欧拉、高斯等计算产业根技术开展教学改革,建立人才培养新模式,孕育新一代产业亟需人才;鲲鹏处理器:ARM属于精简指令集,具备低功耗优势CPU的本质是超大规模集成电路,用于解释计算机指令和处理计算机软件中的数据,并负责控制、调配计算机的所有软硬件资源。CPU承担耦合系统软硬件资源的中枢作用:1)计算机系统中所有软件层的操作,最终都将通过指令系统映射为CPU的操作;2)CPU控制、调配所有硬件资源(如存储器、输入输出单元),由控制单元实现指令读取、指令译码,并通过运算单元执行数据加载、计算和回存任务;指令系统是生态底层逻辑,可分为复杂指令集(CISC)和精简指令集(RISC)。复杂指令集架构与精简指令集架构是基于两种不同的指令集思路进行设计,这两种架构有着各自不同的特点:复杂指令集指令丰富、寻址方式灵活,以微程序控制器为核心,指令长度可变,功能强大,复杂程序执行效率高,主要为Intel推出的X86架构;精简指令集指令结构简单、易于设计,具有较高的执行能效比,包括ARM、MIPS、RISC-V、LoongArch等架构。BoostKit应用套件:90%主流开源软件支持鲲鹏开箱即用鲲鹏BoostKit主要面向伙伴和客户的开发者,提供高性能开源组件、基础加速软件包、应用加速软件包,使能应用极致性能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论