AIGC对光通信行业的影响分析_第1页
AIGC对光通信行业的影响分析_第2页
AIGC对光通信行业的影响分析_第3页
AIGC对光通信行业的影响分析_第4页
AIGC对光通信行业的影响分析_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AIGC对光通信行业的影响分析1.0行业背景:大模型驱动算力需求本轮AI浪潮由ChatGPT掀起,并引发中外科技企业展开对大语言模型及生成式AI的追逐和对算力的军备竞赛。无论是传统互联网企业还是新进入者都在加大算力投资,积极推出大模型。我们认为多模态大模型与应用生态圈将成为2024年生成式AI的关键词,生成式AI依然处于行业发展的初期,多模态大模型训练与推理需求双驱动加速算力基础设施建设。多模态大模型,AI感知能力更加丰富11月6日,OpenAI公布GPT-4Turbo,平台提供多模态功能,包括视觉、图像创造(DALL.E3)和文本转语音(TTS)。12月7号,谷歌发布AI多模态模型Gemini1.0。Gemini1.0根据不同尺寸进行了优化,分别是Ultra、Pro和Nano。GeminiUltra适用于高度复杂的任务,GeminiPro是通用版,而GeminiNano则被用于各种客户端设备。Gemini1.0可以同时理解并识别本文、图形、音频等。伴随着大模型处理数据的类型持续扩展,多模态大模型(LMMS)成为主流,这使得未来大模型参数与训练集规模将持续扩大。当前多模态系统主要处理文本、图片和语音。伴随行业发展,大模型将可以处理视频、音乐、3D等内容。这也意味着大模型训练算力需求的增长将超预期。应用生态圈趋于成熟,推理算力需求显著增长OpenAI发布了GPTs,让用户们无需代码,结合自己的需求、外部知识和能力创造自定义版本的GhatGPT,满足了用户的定制化需求。此外,OpenAI在11月底上线GPTstore,让开发者们能够分享、发布自己创建GPTs。GPTs和GPTStore的上线满足了客户的特色化需求,有望加速GPT应用生态建设,进一步提高用户黏性。GPTs降低了制作大模型应用门槛,用户无需编程基础,用自然语言就能做出专属GPTS,从而加速大模型向个人用户和垂直行业渗透。GPT应用量的增长,也意味着“杀手级”应用出现的可能性提升。大模型应用所带来的推理算力需求将会超出预期。2.0算力芯片与服务器发展趋势NVLink技术、NVSwitch芯片提升芯片互联带宽打破PCIe限制Nvlink4代的总带宽可达到900GB/s,为PCIe5.0总线带宽的7倍,对比下一代PCIe6.0的256GB/s也有显著优势。NVSwitch是英伟达的节点交换架构,通过连接多个NVLink,在单节点内和节点间实现多GPU的拓展。第三代NVSwitch能在带点服务器节点中支持8-16个完全链接的GPU,支持以900GB/s的速度互联每个GPU。英伟达H100使用第四代NVLink和第三代NVSwitch,具有八个NVIDIAH100TensorCoreGPU的系统具有3.6TB/s的二等分带宽和450GB/s的缩减操作带宽。与上一代相比,这两个数字分别增加了1.5倍和3倍。英伟达摆脱了PCIe在原始带宽、延迟以及缓存一直性方面的限制。通过NVLink和NVSwitch实现多个GPU大规模集群的传输,实现更快和更可拓展的计算系统。英伟达DGX服务器实现内部GPU全互联以GTCSPRING2022发布的DGXH100为例,H100分为SXM和PCIe两个版本。主流大模型依赖多卡协同,GPU之间的带宽要求较高,Nvlink全互联的GPU更加适合大模型应用场景。SXM版本中8张H100芯片通过4张NVLinkSwitch芯片实现全互联。GPU之间带宽高达900GB/s(双向链路25GB/s*2*18条=900GB/s),相较于PCIE5.0x16双向带宽128GB/s,互联速度得到快速提升。PCIe版本中4张H100芯片通过PCLeSwitchPEX4:1连接到CPU,2张H100芯片通过NvlinkBridge互联。PCIE机型更加灵活,GPU卡的数量以及PCIE的拓朴可以进行调整。英伟达DGX服务器计算网络设计优化DGXH100在服务器内部通信构架中可以看出计算网络的重要性。相较于DGXA100,DGXH100正在放弃传统的PCIe网卡,转而使用“Cedar”的模块进行GPU与GPU之间的互联。DGXH100通过2个Cedar7模组,每个模组包含4个ConnextX-7ICs,通过Densilink电缆连接到服务器的对外接口。虽然8张GPU配备了8张400G的网卡ICs,但接口合成成了4个800G接口。优势:1.使用Cedar模块可以提升服务器空间效率,同时有助于服务器内部空气流通。2.Cedar模块直接通过电缆对外连接,有助于降低PCB设计复杂度与成本。Chiplet和异构芯片成为行业发展的趋势Chiplet:AMD早在2011年发布了APU已经是CPU+GPU架构。在2017年,AMD发布的论文《DesignandAnalysisofanAPUforExascaleComputing》中讨论包含CPU、GPU和HBM内存堆栈的APU芯片设计。在2023年6月推出了AMD首个CPU+GPU的数据中心产品。UltraFusion:M1Ultra采用台积电5nm工艺,由两块M1Max芯片拼接而成,这样的“组合”使得其晶体管数量达到1140亿颗。使得各项硬件指标翻倍:20核CPU包含16个高性能核心、4个高能效核心;GPU核心数量增至64核;32核神经网络引擎能够带来每秒22万亿次的运算能力;统一内存最高规格达到128GB;内存带宽提升至800GB/s。这种多芯片(Multi-die)配置主要靠UltraFusion多晶粒架构,使用2.5D先进封装技术。异构芯片互联的趋势,逐步摆脱了传统SoC的束缚,芯片面积提升不一定意味着成本大幅提升与良品率大幅下降。HBM大幅提升显存带宽,适合大模型应用场景HBM通过采用TSV技术突破内存带宽与容量瓶颈,是新一代的DRAM解决方案。相对于传统内存,HBM是在硅中阶层(SiliconInterposer)上堆叠起来并与GPU封装在一起,大幅缩小使用面积,并且HBM距离GPU更近,进一步提升数据传输速度。HBM主要是通过硅通孔(TSV)技术进行芯片堆叠,通过贯通所有芯片层的柱状通道传输信号、指令、电流,以增加吞吐量并克服单一封装内带宽的限制,通过采用TSV技术HBM大幅提高了容量和数据传输速率。与传统内存技术相比,HBM具有更高带宽、更大容量、更低功耗、更小尺寸,HBM突破了内存带宽与容量瓶颈,让更大的模型、更多的参数留在离核心计算更近的地方,从而减少存储解决方案带来的延迟,是新一代的DRAM解决方案。算力+数据读取能力+通信能力缺一不可英伟达2019年以69亿美金收购Mellanox。Mellanox为服务器、存储和超融合基础设施提供以太网交换机、芯片和InfiniBand智能互联解决方案在内的大量数据中心产品。收购Mellanox使得英伟达在数通市场业务更加全面,数据中心工作负载将在整个计算,网络和存储堆栈中进行优化,并能实现更高的性能,更高的利用率和更低的运营成本。BlueFieldDPU:DPU承接了传统服务器中CPU的工作负担,并融合了智能网卡的网络加速功能,这样更好的释放了CPU资源,更好支撑虚拟机和容器的应用。优势:1.降低服务器功耗,降低用电成本;2.网络通信速度提升。网络架构演进光模块与交换机需求提升大模型参数规模提升,算力集群中互联服务器数量显著提升。二层无收敛的胖树网络架构互联的网卡数量是受限的,超算数据中心的网络架构会向三层无收敛的胖树网络架构演进,这意味着光模块和交换机的需求将进一步提升。英伟达推出的DGXSuperPOD超级计算机,是一套软硬协同的完整解决方案,在满足AI模型算力的基础上,又能帮助企业快速部署AI数据中心。DGXSuperPOD采用模块化的设计,支持不同规模大小的设计。以127个DGXH100为例,整体网络分为计算网络,存储网络,带内管理网络和带外管理网络。3.0光模块光模块的作用是光电信号的转换。光模块内部结构包括光发射组件(TOSA,含激光器芯片)、光接收组件(ROSA,含探测器芯片)、驱动电路、光电接口。在发射端,光模块将设备产生的电信号经驱动芯片处理后,通过激光器转化为功率稳定的调制光信号,使得信息能够在高速光纤中传递;在接收端,光信号经探测器处理后还原为电信号,经前置放大器处理后输出。光芯片是上游产业链核心器件,光器件占比约为73%,电路芯片占比18%。光器件中,光发射组件和光接收组件合计占比约80%。光模块需求测算:英伟达A100推荐配置A100+ConnectX6+QM8700三层网络。第一层架构中,每个节点(A100)有8个接口,每个节点分别连接8个叶交换机。每20个节点组成一个单元(SU),在第一层需要8*SU个叶交换机需要8*SU*20条线缆,需要2*8*SU*20个200G光模块。第二层架构中,由于采用无阻塞架构,第二层也采用单条电缆200G的传输速率,线缆数量和第一层相同,需要2*8*SU*20个200G管模块。所需要的脊交换机数量是线缆数量除以叶交换机数量,需要(8*SU*20)/(8*SU)个脊交换机。但是当叶交换机数量不够多的时候,为了节约脊交换机的数量可以在叶和脊之间做两条以上的连接(只要不超过40个接口的限制)。因此当单元数量分别为1/2/4/5个时所需要的脊交换机数量为4/10/20/20个,所需要的光模块数量分别为320/640/1280/1600个,脊交换机数量不会同比例提升,但光模块数量会同比例提升。当单元数量达到7个时,需要用到第三层架构,由于无阻塞架构因此第三层架构所需要的线缆数与第二层数相同。140台服务器,共对应140*8=1120片A100,共需要56+56+28=140个交换机(QM8790),需要1120+1120+1120=3360根线缆,需要3360*2=6720个200G光模块,A100与200G光模块对应关系为1120/6720=1:6。光模块需求测算:在算力集群中,光模块需求数量影响因素:网卡型号、交换机型号、单元数量,不同架构所需要的光模块数量有所差异。以A100SuperPOD为例,英伟达官方推荐网卡为ConnectX-6(200b/s),交换机型号为QM8700(40路200Gb/s传输速率),每个单元包括20个节点,最大支持7个单元组成集群,超过5个单元需要三层交换架构,那么每张A100所需要6个200G光模块。以H100SuperPOD为例,英伟达官方推荐网卡为ConnectX-7(400b/s),交换机型号为QM9700(64路400b/s传输速率),每个单元包括32个节点,最大支持4个单元组成集群,两层交换架构,那么每张H100所需要1个400G和1.5个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论