数据密集型超算发展白皮书2023_第1页
数据密集型超算发展白皮书2023_第2页
数据密集型超算发展白皮书2023_第3页
数据密集型超算发展白皮书2023_第4页
数据密集型超算发展白皮书2023_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

超级计算创新联盟数据密集型超算工作组2023年8月编写委员会陈国良张云泉周跃峰金钟林新华唐卓张兴军王毅肖利民王怡东庞鑫顾雪军副主编潘景山李少波韦建文王继彬高巍苏亮徐恩松张洋李亚子贾海鹏韩振兴王旭东陈阳陈振华柴旭清戴奇志段芳成丁江波樊春范靖龚斌高亦沁高芬郭武郭洪星胡俊胡广超李会民李昕伟刘畅李斌杰鲁蔚征郄军利宋平宋天宇孙晓艺孙敏淮唐小勇王青王成伟王继彬王炳强万林魏旗鹏姚舸曾帆曾令仿张凯丽张震邹有赵顺存责任编辑王世葆感谢以下机构参编支持(排名不分先后):北京大学北京航空航天大学长沙理工大学贵州大学河南师范大学湖南大学兰州大学南京大学上海交通大学山东大学深圳大学西安交通大学中国人民大学中国医学科学院中国科学技术大学中南大学超级计算创新联盟国家超算济南中心国家超算长沙中心华为技术有限公司科大讯飞崂山实验室联科中国鹏城实验室青岛国实科技有限公司中科院科学计算所中国信息通信研究院之江实验室数据是对客观世界状态变化的数字化记录,在数字经济和数字中国的大战略下,数据已成为国家基础性战略资源和关键生产要素,是数字化、网络化、智能化的基础。今年发布的《数字中国建设整体布局规划》进一步强调夯实数字基础设施和数据资源体系“两大基础”。众所周知,高性能计算是国家综合国力和信息化建设能力的一个重要体现,被誉为“国之重器”。数据密集型超算,是高性能计算与人工智能、大数据等新一代信息技术融合后围绕数据价值,而产生的一个重要新增类型,是在高性能计算领域的一次有益的创新探索,在一定程度上代表了高性能计算的未来发展趋势。我们很欣喜地看到,在过去两年中数据密集型超算在产业各界的多方合作下持续创新,相继在商业应用、标准规范等取得了显著的进展。如文中所述,数据密集型超算在国家超算中心、高校等场景、基因测序、AI大模型等行业应用中产生了很多优秀实践。与此同时,我们也看到中国高性能计算所面临的挑战和机遇:应用层面,随着数据爆炸,高性能计算从重计算模型,衍生到重IO,大带宽包括混合负载的数据模型;算力层面,通过AI赋能,科学研究正迈向科学智能新阶段,推动AI异构加速;连接层面,随着超算互联作为国家战略,需要实现更高效的网络互联和跨域全局管理。另外,在新的复杂国际安全形势和低碳化全球趋势下,超算安全、绿色节能、自主创新也成为高性能计算业内人士关注的问题。白皮书结合高性能计算在数据密集型场景的发展趋势给出了分析和建议,值得深思。面向未来,以ChatGPT为代表的AI大模型兴起,数以千亿的参数投入训练,产生对算力和数据的双重需求。HPC与AI逐步走向融合,将成为数据密集型超算的典型应用场景。数据的准备至关重要,数据的质量和规模决定AI的精度。为了更好应对诸如新应用带来的生态复杂性变化、新业务催生的混合业务负载压力、新数据与算力协同带来的数据跨地域访问等挑战,白皮书中创新性地提出新型数据密集型超算5A架构,以应用为中心,较好地支撑HPDA(HPC+大数据+AI)多系统融合业务发长风破浪会有时,直挂云帆济沧海!HPDA正在加速提升科研创新及生产效率,在新的趋势和发展机遇下,期待产业各方深化合作和持续创新,数据密集型超算在推动科研和数字经济发展上发挥更房一年一度的CCFHPCChina,给业界提供了很好的契机,促使我们去系统化地思考超算的过去、当下和未来。数据密集型超算HPDA白皮书发布已经两年,这两年间超算领域已经发生了许多令人惊讶的变化,尤其当生成式人工智能AIGC技术爆发,超算的发展也正在迎来一个新的阶段。超算正在加速与AI深度融合,驱动科学研究迈入科学智能时代AIGC热潮的背后其实就是超级计算机技术与AI大模型技术相结合的结晶:早在2019年,微软就为OpenAI的ChatGPT大模型训练部署超过上万个GPU组成的大型AI超级计算机。超算从诞生开始就致力于加速重大科研的创新,而超算与AI的融合将实现科研创新的又一次通过Al赋能科学研究,可以解决传统HPC算不了、算不准、算不动的问题。且从科研创新的角度来看,提出问题比解决问题更重要。而AI的本质上实际上是数据驱动通过AI算法拟合成一个符合大概率的规律,尽管有可能这些规律缺乏可解释性,但这些“意料之外”的规律反而就是科研创新突破的最佳指引。这相当于给科研人员开启了一个上帝视角,一切未知皆为参数,数据可及皆为样本,洞明世事皆为模型,进而让科学研究迈入到了科学智能实际上数据密集型超算概念的提出就是洞悉到了超算与AI的融合,因为其核心就是数据驱动,数据的重要性也随着AI大模型的发展变得愈发凸显。AI的三要素,数据、算法和算力。在算力水平基本一致的前提下,如果说当前的AI时代角逐还是数据和算法并重,那么随着AI算法的逐步标准化趋同,决定下一轮胜负的关键必然在数据上。譬如,Meta基于650亿参数和4.5TB训练数据开发了LLaMA,而OpenAI基于1750亿参数和570GB训练数据开发了GPT-3.5。虽然LLaMA在参数规模上不及GPT-3.5的50%,但其表现能力在多数基准上均超越了后者,其主要原因在于数据规模提升了8倍。由此可见,提升AI大模型精度、数据规模以及数据质量比模型参数更具决定性的作用,可以说数据决定了AI智能的高度。超算互联上升为国家级战略,数据互联与流动“一桥飞架南北,天堑变通途”,超算互联正是这一理念构想在超算产业的践行。在东数西算、算力互联网等国家战略实施的大背景下,超算互联旨在构建一体化超算算力网络和服务平台的目标也上升为国家级战略。欧盟等区域和国家也相继发布了其国家版的超算互联战略,为下一个战略制高点所谓内行看门道,互联普遍意义上是指算力的互联,实际上数据的互联和流动才是超算互联的底.从超算中心的物理部署来看,需要实现不同超算中心的数据互联,并提供跨地域、跨系统的全局统一数据视图以及调度。让任意位置的数据都随时随地可快速访问,并实现数据的按需分级与流.从业务集群的建设模式来看,需要实现不同业务集群间的数据互联。这是因为数据密集型HPDA往往对应的是数据驱动的一套序贯式科学业务流,譬如基因测序往往包括文库制备、格式转换以及生信分析等多个业务阶段,传统意义上不同的业务集群往往是烟囱式独立建设模式,频繁的数据拷贝与迁移成为影响科研效率的关键。因此,我们认为超算互联要面向多样化业务要构建安全、可靠的统一数据底座,基于高性能专业存储的多协议、冷热温自动分级以及全局文件系统GFS等技术打破影响数据流动的层层壁垒。所谓流水不腐户枢不蠹,数据只有在更大范围的充分流动与共享,才能真正促进信息的数字化,才会有价值超算中心大规模集群化,低碳绿色成为关键诉求。E级超算的建设当前已经是屡见不鲜,并且随着整体应用算力需求与单卡之间的算力剪刀差持续加大,导致集群规模越来越大。尽管大规模集群往往意味着国之重器,科研利器,但与此同时超算系统的能耗和散热问题日益突出。因此,提高超算系统的能效比和降低碳排放已经成为超算行业的重要.全面加速存储闪存化:超算中心以及智算中心由于其极致的业务性能诉求,特别是随着AIGC业务的爆发,高性能的全闪专业存储将成为首选。全闪存一方面意味着应用性能的极致表现;另一方面在单位容量的功耗上要大幅降低。不仅如此,随着业界闪存大容量盘的加速推出,其逐步凸显的性价比优势也将加速业界全.存储创新提升GPU利用率:随着超算业务的多样化趋势,算力的多元化以及数据的多模态发展愈发明显。数据密集型应用驱动在算力层面GPU占比越来越高。提升GPU的资源利用率,也就意味着用更少的GPU资源能耗去满足相对确定的应用算力需求,提高能效比。在存储创新方面,一方面通过面向混合负载的极致高性能,通过减少GPU在数据加载等待时间提升利用率;另一方面还可以有通过近存计算实现近数据预处理,让数据在存储就完成部分数据准备任务,减少计算和存储之间的数据搬迁,进一步提升GPU的这次数据密集型超算发展白皮书2023的发布,正好是在AI大模型这样的时代背景下,其对于中国超算行业之重大意义,丝毫不亚于无线通讯领域从3G/4G时代突破式地迈向了5G时代。在全新的产业赛道上,中国科技要携手起来坚定并坚持自主创新,引领超算行业的“5G”浪潮。1数据密集型超算最新趋势1.1数据密集型趋势下,高性能计算面临六大挑战和需求011.2数据密集型应用加速发展,对存储性能提出更高要求021.2.1大数据、AI技术应用及科学观测仪器能力提升,带来更大数据量021.2.2数据密集型应用,数据模型对存储大带宽和IOPS有更高的要求031.2.3多技术融合的新兴业务,带来多业务混合负载041.3HPC和AI融合,加速改变科研及生产效率051.3.1AI加速科学研究范式变迁,数据驱动的AI方法改变科学的渐进发展051.3.2数据决定AI智能的高度,数据存储成为大模型时代的核心基础设施061.3.3发展先进数据存力基础设施,是构建大模型时代高质量发展的基石071.4超算互联上升至世界各国国家战略,数据基础设施先行081.4.1美国大力推动高性能数据密集型基础设施互联081.4.2欧洲成立超算联合体,构建一体化超算基础设施091.4.3中国超算互联网工程,构建一体化算力网络和数据平台101.5超算安全关系国计民生,数据资产安全成为重点121.5.1国家级网络攻击对抗愈演愈烈,科研重点单位成为重点目标之一121.5.2各国陆续出台法律法规,提升数据战略地位,加强数据安全保护力度131.6中国“数据基础设施”关键根技术有突破、有创新,可支持全栈自主可控141.7提高能效比和降低碳排放,支持超算发展和持续演进151.7.1超算系统商业应用和未来演进面临能效挑战151.7.2通过软硬件设计优化提升超级计算机能效,实现超算系统可持续发展162数据密集型超算技术架构2.1HPC与AI走向融合,构建“5A”新型超算架构2.2AnyApplication:新型应用不断涌现,数据密集型超算应具备丰富的应用生态承载及演进能力2.2.1应用快速发展,需要多协议融合互通能力支撑业务未来演进2.2.2数据分析广泛应用,需要支持科学计算工作流,提升业务效率2.3AnyWorkload:多技术融合带来多样负载,数据密集型超算应具备承载动态混合负载及应用加速能力2.3.1HPC+AI+BigData多样性应用,需要动态混合负载承载能力212.3.2E级大规模应用,需要近计算实现加速222.3.3超算“性能墙”和“能耗墙”两大挑战,推动分布式全闪存储替代势在必行232.4Anywhere:多地域超算互联,需要跨域全局数据统一管理能力242.4.1算力和数据协同调度,数据全局可视242.4.2数据分级管理,应用无感访问242.5AnyCondition:全方位可信设计,保障业务永远在线,数据永不丢失252.5.1应对数据风险与业务风险挑战,超算平台进行全方面安全保障252.5.2应对灾难事件时生产中断挑战,超算平台稳定性设计保障业务永远在线262.5.3数字资产作为企业核心财富,存储数据要做到永远可靠不丢失272.6AnyView:多应用场景的统一智能管理平台提升管理效率272.6.1统一设备管理系统,提升运维管理效率272.6.2超算建设模式走向集约化,需要统一高效的作业管理282.6.3数据全生命周期管理,夯实高效、全面、智能的数据底座283数据密集型超算优秀实践3.1国家超算济南中心:打造中国最大规模数据密集型超算应用标杆293.1.1国超济南中心发展势头迅猛,构建引领全球科技发展的“最强大脑”293.1.2面对海量数据存储和计算效率的挑战,国超济南中心积极追求HPC架构转型293.1.3国超济南中心采用统一存储底座,打造标杆级新型超算中心303.1.4统一存力底座助力国超济南中心成就超算标杆303.2上海交通大学:AI存力基座助力教育科研发展3.2.1AI时代,学校高性能计算中心面临新场景海量数据挑战323.2.2“一存力,多算力”的统一存力基座方案333.2.3存力基座助力教育科研发展343.3中国医学科学院:全栈自主可控、GPU生信加速打造安全、高效的基因测序超算平台363.3.1快速测序、海量基因数据存储成为基因测序领域的重大挑战363.3.2高效、敏捷、自主可控的一站式基因测序全栈解决方案373.3.3全栈国产化平台助力医学科研成果转化383.4科大讯飞:高性能、稳定可靠的统一数据管理底座是大模型训练的关键383.4.1AI大模型训练中的挑战393.4.2强强联合,打造最佳大模型算力+存力全栈方案403.4.3在HPC与AI的融合创新中走向独立自主41纵观全球,新一轮的科技革命和产业变革正在全方位的改变着社会生产生活,一个以数据服务能力为基础的,万物感知、万物互联、万物智能的数字经济世界正在加速到来。实施数据战略、积累数据资源、保障数据安全、做大做强数据产业,已经据国际权威数据分析研究机构IDC《数据时代2025》报告预测,从2018年至2025年,全球数据将从2018年的33ZB增至2025年的175ZB,数据量增长4倍多。其中,中国数据圈增速迅速,预计将从2018年的7.6ZB到2025年将增至48.6ZB,占全球数据圈比重将从23.4%发展到27.8%,中国将成为全球最大的数据圈。因此,更先进的数字技术、更强大的数据服务能力和更高水平的数字产业,将成为新时代我国发展数字经济的根本内容。超大规模的数据量对数据的存储、数据的安全提出了前所未有的挑战,可靠高效的存储能力是数据供给安全的高性能计算HPC是构建下一代数据产业和科学计算的基石,是驱动科研创新的重要计算引擎,帮助人们从海量的数据中探索人类社会和宇宙的未来。早在2007年,图灵奖得主詹姆斯·格雷就在题目为《科学方法的革命》的演讲中提出,随着数据的爆炸性增长,科学计算(即“第三范式”)中的数据密集型范式将成为一个独特的科学研究范式,即“第四范式”。数据密集型超算,成为高性能计算与人工智能、大数据等新一代信息技术融合后而产生的一个重要新增类型,在一定程度上代表了高在此趋势下,我们发现在高性能计算在应用层、算力层、超算网络互联及全局管理、安全、绿色节能、系统全栈自主可控六个方面都面临新的挑.应用层面,随着生成式AI、大数据应用以及科学观测仪器能力提升,带来更大数据量,新的数据密集型应用,产生了新的数据模迈向科学智能新阶段,数据规模和质量决定了AI智能高度。发展先进数据存力基础设.联接层面,需要科研机构之间的大数据量互访,推进超算互联工程进程,打造集应用、数据、算力服务于一体的超算,实现跨超算中心的联接,一体化数据基础设施已成为超.安全层面,对数据资产的安全提出更高的要求,提升数据战略地位,保证数据安全和主.自主可控层面,从处理器,先进闪存等核心硬件,到跨域数据管理系统,分布式并行文件系统,以及超算集群等软件具备全栈自主.绿色节能层面,通过改进硬件设计和制造过程,优化软件设计,提高超算系统的能源效应用,数据密集型化从重计算模型,到重IO、大带、混合负载数据模型算力,AI算力,AI异构加速从科学计算到科学智能从网络互联,到跨域超算互联从科学计算到科学智能新安全,数据资产保护新安全,数据资产保护oo绿色,软硬系统节能从网络安全,到数据资产安全从计算能效节能,到软件、硬件系统节能 全栈自主可控从芯片自主可控,到全栈自主可控随着与大数据、AI等新的数据分析技术和工具结合,HPC的诉求从以数值计算为主,衍生到与大数据知识挖掘及AI训练推理结合的HPDA高性能数据分析时代。大数据、AI技术及科学观测仪器能力提升,给应用带来更大的处理数据量。同时新的数据密集型应用,产生了新的数据模型,驱动新的近1.2.1大数据、1.2.1大数据、AI技术应用及科学观测仪器能力提升,带来更大数据量随着物联网技术、大数据技术的飞速发展,超算系统处理的数据量爆炸式增长。得益于科学观测仪器能力的不断提升,大幅提高了采集的速度和广度,如:高通量测序仪通量从几十个GB,提升到现在几个TB级别通量;全球数以百万计的传感器都在对宇宙、气象、生物、物理和化学过程进行实时观测和记录,在取得更好的计算或者模拟效果的同时也产生大量观测数据。计算设备运行各种科学模型任务,在进行大规模模拟计算的同时会产生大量的10-30TB/天->6PB/年一台冷冻电镜500T/天->180PB/年1个FAST天眼6TB/天->8.5PB/年(含膨胀)1台基因测序仪60TB/天->200PB/年1辆自动驾驶汽车50T/天->18PB/年1颗遥感卫星1立方厘米->PB类脑研究500T/天>180PB/年1个高能同步辐射光源中心1Pb/s->4000EB/年1个SKA平方公里阵列图1-2典型超算场景的数据量03从初步统计看,目前大部分典型的超算应用起步档已经是PB级。面向新兴的应用譬如脑科学等,其单场80%的应用场景数据量80%的应用场景数据量PB级图1-3典型场景数据量分析1.2.2数据密集型应用,数据模型对存储大带宽和1.2.2数据密集型应用,数据模型对存储大带宽和IOPS有更高的要求根据测试和分析,数据量的变大,会导致对应的计算数据模型和存储访问数据模型也发生较大变化。基因测序、气象预测、油气勘探等数据密集型应用相对分子动力学、化学等数值型计算应用,在写IOPS和读写带宽上产生数量级的增加,其文件大小普遍超过1GB以上。读IOPS写IOPS350015.8MB/s130B/s233739.56MB/s5KB/s20003.373GB/s1.275GB/s700460600MB/s500MB/s6000337MB/s729MB/s大文件(IO为4K以下,文表1-1数据模型041.2.3多技术融合的新兴业务,带来多业务混合负载1.2.3多技术融合的新兴业务,带来多业务混合负载随着一些新兴业务的出现,带来业务流程的复杂多样。如自动驾驶业务涉及超过10个处理环节,各个环节存在数据互访、数据采集、标注、训练集仿真数据访问、AI推理。其中数据采集和预处理会借助大数据技术和组件;在AI训练阶段会采用AI深度学习训练技术;仿真阶段会采用HPC技术。超声波传感器GPS激光雷达毫米波雷达摄像头NFS/CIFSNFS/CIFSNFS/HDFS数据收集和预处理数据导入HDFSNFS仿真仿真验证验证S3/NFSPB级数十GB/S带宽海量小文件极致OPS和时延数十~百GB/S带宽<1ms时延同时,各个环节数据模型各有差异:如在数据收集和导入环节使用NFS/CIFS上传脱敏数据到存储资源池,此环节IO特征为大IO顺序写;在数据预处理环节采用大文件聚合,大IO顺序读,存在多客户端顺序写小文件;AI模型训练主要是多线程小IO随机读多个小文件。仿真验证则是单线程大IO顺序S3单客户端顺序写大文件AI训练综上所述,由于大数据、AI、HPC仿真等多技术的融合,业务呈现多样业务混合负载特征。数据模型既需要支持高带宽又需要支持高IOPS。HPC和AI融合,加速改变科研及生产效率1.3.11.3.1AI加速科学研究范式变迁,数据驱动的AI方法改变科学的渐进发展AI赋能机理计算是目前超算的一大趋势,通过数据驱动AI计算,利用人工智能技术对机理计算进行优化和加速,提高计算效率和精度,从而实现更图1-5华为盘古气象大模型研究成果在《Nature》正刊发表例如日前国际顶级学术期刊《Nature》杂志正刊发表了华为云盘古大模型研发团队研究成果《三维神经网络用于精准中期全球天气预报》。受限于气象观测的准确度,大气系统中物理过程的复杂性,传统数值方法所需计算资源规模巨大,全球中期天气预报的有效性每10年才提高1天。而华为盘古气象大模型是首个精度超过传统数值预报方法的AI模型,速度相比传统数值预报提速10000倍以上,改变了近些年数值天气预报精度提升缓慢的科学计算(HPC)面临挑战面临挑战算不了、算不准、算不动算不了、算不准、算不动++AI催生AI赋能机理计算DeePMD:分子动力学模拟AI赋能机理计算DeePMD:分子动力学模拟AI+分子动力学科学智能(HPDA=HPC+BigData+AI)数据驱动的AI计算AI+蛋白质结构预测机理计算与AI计算相结合AI+HPCAI+HPCAI+生物制药图1-6HPC和AI融合,科学计算走向科学智能科学研究正迈向科学智能新阶段,通过Al赋能科学研究,解决传统HPC算不快、算不准、算不动的问题。如AI赋能机理计算,DeePMD基于深度学习的分子动力学模拟方法,将Al嵌入机理计算中,在空间尺度和时间尺度上基于数学方程推演,计算效率提高1000倍,计算空间尺度增大100倍。在数据驱动的Al计算中,如AlphaFold蛋白质结构预测,通过Al加速可以使药物临床研究耗时从年减少到月。1.3.2数据决定1.3.2数据决定AI智能的高度,数据存储成为大模型时代的核心基础设施一、数据数量和质量决定AI智能的高度在我们探讨机器学习的效果时,无法忽略的一点是高质量数据的重要性。数据质量越高,意味着更准确、更可信、更相关、更有价值的数据,给人工智能提供更可靠的输入,提高模型的可用性和可靠性。如果没有高质量的数据输入,无论多么先进的算法、多么庞大的算力都无法带来高质量的成果。数据质量决定AI智能的高度。传统数据处理方法主要是针对小规模数据,以统计模型为基础寻找数据中的规律。然而基于小规模数据所建立的模型,其表达能力受限于数据规模,只能进行粗粒度的模拟与预测,在精度要求比较高的情况就不再适用。如果想要进一步提升模型精度就需要利用海量数据生成相关模型。数据规模越大,意味着更多的信息、更多的样本、更多的特征,给人工智能模型提供更充分的训练和学习的机会,提高人工智能的泛化能力。数据数量同样决定AI智能的高度。以华为盘古大模型研发团队发现为例,AI气象预报模型的精度不足主要有两个原因:第一,原有的AI气象预报模型都是基于2D神经网络,无法很好地处理不均匀的3D气象数据;第二,AI方法缺少数学物理机理约束,因此在迭代的过程中会不断积累迭代误差。为此,研究团队创造性地提出了适应地球坐标系统的三维神经网络(3DEarth-SpecificTransformer)来处理复杂的不均匀3D气象数据,通过提升数据数量还有质量,并且使用层次化时域聚合策略来减少预报迭代次数,从而减少迭代误差。通过在43年的全球天气数据上训练深度神经网络,盘古气象大模型在精度和速度方面超越传统数二、数据存储是大模型时代发展AI的核心在科学领域,从“数据”中可以提炼出经验性“原理”,也可以使用“原理”来仿真模拟出“数首先,数据准备时间长,数据来源分散,归集慢,预处理百TB数据需10天左右,这不利于系统的其次,如今大模型的规模越来越大,达到千亿甚至万亿的参数级,训练需要海量的计算资源和存储空间。比如多模态大模型以海量文本、图片为训练集,但是当前海量小文件的加载速度不足其三,大模型参数频繁调优,训练平台不稳定,平均约2天出现一次训练中断,需要Check-最后,大模型实施门槛高,系统搭建繁杂,资源调度难,GPU资源利用率通常不到40%。为此,需要非常专业的软件、硬件工程师来进行实施并进综上所述,构建大容量、高性能的存力数据基数据准备时间长数据来源分散,归集慢预处理时间长,百TB级需10天训练集加载效率低模型参数大,千亿级、万亿级小文件性能差,数据加载不足100MB/s训练过程易中断参数频繁调优,训练平台不稳定平均约2天中断一次企业实施门槛高系统搭建繁杂,资源调度难GPU资源利用率不到40%数据编织,近存计算海量小文件高吞吐Checkpoints并行高带宽一站式交付图1-7大模型训练时的关键数据挑战1.3.3发展先进数据存力基础设施,是构建大模型时代高质量发展的1.3.3发展先进数据存力基础设施,是构建大模型时代高质量发展的基石过去十年,人工智能(AI)的飞速增长与数据基础设施逐步演变密切相关。从存储技术的革新,云计算的大规模采用,到数据湖和数据仓库的出现,以及向量数据库的日益利用,每次的演变都在AI繁由于大模型的训练需要快速地处理数据,对性能指标有更高的要求,将会催生高性能存储的新品类,也会加速存储在各环节的融合,类似于数据湖存储,而不是像过去预处理、训练、推理、归集各自构建。在原有的基础架构上,AIforScience时代下的先进数据存力基础设施将有以下四个方面的一、支持数据新范式:数据编织大幅缩短AI大模型数据准备时间多样化数据快速归集:基于GFS,针对S3、HDFS、文件等多种协议接入,支持多样化数据0迁近计算加速:随路处理缩短IO路径,减少数据搬移,释放CPU资源。AI高性能存储:大、小文件自适应读写,高IOPS支撑预处理和训练集聚合优化,通过算力、存向量检索:满足千万并发下的实时推理要求,三、面向AI业务模型分析的可靠数据存储IO级负载均衡:单客户端同时访问多个节点,元数据快速修复:元数据损坏快速定界,支持故障快速恢复:高性能、大容量存储满足PB级高频度CheckPoint要求。四、支持数据价值精准识别与治理,降低数据全生命周期管理TCO全域统一元数据:将线上、线下的元数据统一采集到线下进行统计、分析,为客户展示统一的数08级预取和淘汰。热点数据识别后,数据安全流动,同步到多个集群上去。多源数据共池,一个集群故障后,客户端自动failover到其他集群对应的备份目录。训练数据传输训练数据传输存储网络优化训练据层原始数据层预处理服务器性能型存储(必选)CheckPoint长期留存容量型存储全局数据视图非结构化文件训练服务器推理服务器近数据随路处理推理结果修正和加速向量化存储按需读取训练数据结构化文件模型长期留存模型加载视频图片CADE图1-8面向AI先进存力基础设施1.4.1美国大力推动高性能数据密集型基础设施互联1.4.1美国大力推动高性能数据密集型基础设施互联美国将高性能数据密集型基础设施上升至国家任务,2023年3月10日美国能源部(DOE)宣布了一项提案,要求国家实验室主导高性能数据设施(HPDF)。该项目旨在创建一个专门从事数据密集型科学先进基础设施的新科学用户设施,DOE预计HPDF项目在投资约为3-5亿美元。HPDF的使命将是通过提供最先进的数据管理基础架构、功能和工具来实现和加速科学发现。HPDF将在管理科学数据生命周期方面发挥领导作用,并将推进能源部和政府对公众获取科学数据和公平数据原则(可查找、可访问、可互操作和可重复使用)的承诺。该设施将设计为动态配置计算、网络和存储资源,以访问静止或运动中的数据,支持使用精心策划的数据集,以及直接从实验或仪器对流数据进行近乎实时的分析。09图1-9ESnet6网络连接地图来源:/news-and-publications/welcome-esnet6/esnet6-maps/DOE的研究机构之间经常有任务式的PB级大数据量搬运,数据增长越来越快,且新型科学研究需要科研机构之间的大数据量互访。能源部设想,将以HPDF为基础采用“Hub-and-Spoke”模型,在Hub处托管集中的资源,并通过在Spoke或其他地点部署和协调分布式基础设施来支持高优先级的美国能源部任务应用。Hub和Spoke将通过Esnet进行互联。1.4.2欧洲成立超算联合体,构建一体化超算基础设施1.4.2欧洲成立超算联合体,构建一体化超算基础设施一、“一体化超算基础设施”成为欧洲未来超算建设重点欧洲超算联合体(EuroHPCJU),成立于2018年,旨在承载构建一体化的世界级超算&数据基础设施,支撑欧洲高竞争力创新的HPC&大数据生态的使命。图1-10Federation2023+项目计划互联所有EuroHPC系统的HPC资源来源:https://eurohpc-ju.europa.eu/index_en2021-2033年期间将投资80亿欧元新预算用于持续扩大部署世界级的超算中心,其中Federation2023+项目,计划互联所有EuroHPC系统的HPC资源并提供以下服务:(1)身份验证、授权和认证服务2)算力服务,包括交互式计算和云接入-虚拟机-容器的服务;(3)数据服务,包括归档服务和数据库服务,数据流动和传输服务;(4)用户和资源管理服务。二、意大利打造“国家数据湖云计算基础设施”,打破计算存储资源孤岛壁垒意大利国家超算中心(ICSC),是由PNRR投资赞助的的五个国家中心之一,目标最终建设成一个共享与开放的Cloud/HPC分布式基础设施,为国家战略部门存储计算资源,最终通过科研界以及工业界加速国家的数字化。该中心超算建设战略目标是为国家战略部门(超算,人工智能,数值模拟等)提供创新ICT资源,让意大利成为一个建设配备国家数据湖云计算基础设施的国家,该基础设施可被动态和虚拟的分配给科研组织或者用户,打破计算存储资源孤岛壁垒。所有用户之间资源共享,以提升资源分配与使用的灵活性。ICSC成立博洛尼亚意大利数据谷(DataVal-ley),打造1个超算云架构,连接15+数据中心,承接10大领域科研课题。一方面将集中维护和加强意大利的HPC和大数据基础设施,另一方面将开发先进的数值方法,应用程序以及软件工具,将基础设施和计算、模拟、收集和分析科研活动进行整合,同时向云和分布式数据湖架构演进。1.4.3中国超算互联网工程,构建一体化算力网络和数据平台1.4.3中国超算互联网工程,构建一体化算力网络和数据平台近年来,在科技部和各省市政府的积极推动下,中国超算建设已取得一定成绩,有效支撑了科技创新、社会民生、数字经济发展。随着以大数据、人工智能为代表的新一代信息技术迅猛发展,全社会对算力提出了更高要求,亟需突破现有单体超算中心运营模式,以应对算力设施分布不均衡、接口不统一、应用软件自主研发和推广不足等问题,更好地统筹协调全国超算中心算力。为了解决上述挑战,科技部于2023年4月启动国家超算互联网部署工作,用互联网思维运营超算,将全国众多超算中心连接起来,并连接产业生态中的算力供给、应用开发、运营服务、用户等各方能力和资源,构建一体化超算算力网络和服务平台。按照计划,到2025年底,国家超算互联网将可形成技术先进、模式创新、服务优质、生态完善的总体布局,有效支撑原始科学创新、重大工程突破、经济高质量发展等目标达成。国家超级计算济南中心(以下简称“济南超算”)在超算互联走在了全国前列。2022年7月22日,2022中国算力峰会,超算互联网工程正式上线。通过这一工程,各地的超算中心和大数据中心将实现数据和算力的互联互通,整合成为一个算力图1-12超算互联网上线启用图1-13“东数西算”数据存储集群系统上线济南超算率先在建设省域沿黄9市的算力平台,并逐步构建济南超算-山西超算-西安超算-郑州超算的黄河流域高性能算力圈,并与黄河中上游三个国家一体化大数据中心枢纽节点相互联接,围绕数据存储和应用需求,建立健全多元异构、云边协同的一体化算力体系。滨州东营烟台德州烟台威海济南超算中心聊城淄博济南超算中心聊城青岛海洋实青岛海洋实验室泰安济宁菏泽临沂菏泽枣庄世界各国都在加速高性能数据基础设施部署,推进超算互联工程进程,打造集应用、数据、算力服务于一体的超算平台,实现跨超算中心的链接,包括算力资源和数据资产的统筹与调度。打破计算存储资源孤岛壁垒,支持所有用户之间资源共享,以提升资源分配与使用的灵活性。一体化数据基础设施已成为超算互联建设共性需求。1.5.1国家级网络攻击对抗愈演愈烈,科研重点单位1.5.1国家级网络攻击对抗愈演愈烈,科研重点单位成为重点目标之一超算中心是国家计算基础设施,是推动科研创新和工业发展的关键动力,其平台及数据安全关乎国计民生,也是国家级黑客组织的重点攻击目标之一。近年来,随着网络空间大国博弈的持续深入,网络攻击从民间组织上升到国家级黑客组织,对他2022年3月,根据360公司报告披露,具有境外背景的黑客组织对中国开展无差别网络攻击,攻击行为极为隐蔽,持续长达十余年。目标对象涵盖了党政机关、科研院所、高等院校、医疗机构、行业龙头企业,以及关乎国计民生的各个行业关键信2022年9月,国家计算机病毒应急处理中心和击的调查报告。调查显示,境外组织使用40余种网网络交换机、路由器、防火墙等数以万计的网络设2023年7月,奇安信公司发布的《全球高级持续性威胁(APT)2023年中报告》显示,2023年上半年全球范围内,政府部门和国防军事领域是APT攻击的首要目标。与去年同期相比,教育、科研领域相关的攻击事件比例增高,占比分别为11%和9%。从近年网络攻击态势看,国家级黑客组织的猖獗活动将愈发增多、愈演愈烈,各类基础设施的安全将长期处于前所未有的战略承压期和高危风险期,这一特征在相当长一段时间内不会改变。媒体3%制造3%加密货币4%通信4%30%金融9%9%9%图1-152023年上半年高级威胁事件涉及行业分布情况1.5.2各国陆续出台法律法规,提升数据战略地位,加强数据安全保1.5.2各国陆续出台法律法规,提升数据战略地位,加强数据安全保护力度近几年,全球主要经济体包括中国、美国、欧盟、英国等纷纷把数据竞争力上升为国家级战略。虽然2020年受疫情影响,全球整体经济增长减缓,但“减少接触,远程办公”等措施反而使得数字经济发展的势头更加迅猛。各国更加重视数据竞争力,并纷纷出台政策制定数据战略,宣誓数据安全和主权。在保护数据安全的前提下,承认数据价值、促进数据利用,争相在数据政策制订方面建立·中国2020年4月,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》公布,中央首次明确数据成为继土地、劳动力、资本、和技术之外的第五大生产要素。2022年,党的二十大报告提出了“加快建设网络强国、数字中国”、“健全网络综合治理体系,推动形成良好网络生态”、“强化网络、数据安全保障体系建设”等重要部署要求,对“推进国家安全体系和能力现代化,坚决维护国家安全和社会稳定”进行全局部署,为今后国家网络安全和信息化的发展定下了主基调。为应对数据安全风险带来的严峻威胁,2021年陆续颁布《中华人民共和国数据安全法》及《中华人民共和国个人信息保护法》。《中华人民共和国数据安全法》是数据要素国家战略的基本法,是我国数据时代的重要一步,体现了国家对支持数字经济的决心与信息,是数字经济“安全与发展”并重的体现。同期,各个行业配套落地措施及标准陆续出台。2022年,国家进一步强化了前期法规的纵深推进与落地实施,有力夯实了国家数据安全保障基结合我国前期发布的《国家安全法》、《网络安全法》与上述其他规范形成配套组合,作为国家整体安全观的组成部分,共同构筑了国家信息网络空间与基础设施的安全壁垒,为保护国家和个人信息数据安全提供了法律依据。·美国2019年12月,美国白宫发布了《联邦数据战略和2020年行动计划》。联邦数据战略以2020年为起始点,描述了美国政府未来十年的数据愿景,其核心思想是将数据作为战略资源来开发,通过确立了一致的数据基础设施和标准实践,来逐步建立强大的数据治理能力,为国家经济和安全提供保障。2020年10月8日,美国国防部发布了《国防部数据战略》(DoDDataStrategy),提出国防部应加快向“以数据为中心”的过渡,并制定了数据战略框架。并提出:数据是战略资产、数据要集体管理、数据伦理、数据采集、数据访问和可用性、人工智能训练数据、数据适当目的、合规设计等八大原则;数据应当:可见的、可访问的、易于理解的、可链接的、可信赖的、可互操作的、安全的等可见,不管是美国白宫的《联邦数据战略》,还是美国国防部的《数据战略》,都希望促进美国内部数据的访问、共享、互操作性和安全性,使数据发挥更大的价值,支持更多创新算法的应用,最终支持美国国家战略和数字现代化战略的实现。·欧盟2020年2月,欧盟发布了《欧盟数字化战略》、《数据战略》、《人工智能战略》。其核心思想亦是在建立联邦数据平台的基础上实现数据主权和技术主权,从而达到数字经济时代,国家竞争同时,欧盟非常重视信息数据流通与个人权利保护相结合,在2018年5月发布了《通用数据保护条例》(GDPR),明确了个人数据定义和条例适用范围。条例还确定了数据保护的合法性基础、数据主体权利、数据控制者义务、数据流通标准、数据救济和处罚等内容。通过GDPR,欧盟对出境的个人数据保持了高水平保护。同时,欧盟认为GDPR应该成为世界的标杆,在推动世界在数据战略方面向欧盟看齐。因此GDPR也成为全球众多国家、地区制定数据保护条例的重要参考对象。高性能计算做为体现国家综合国力和信息化建设能力的“国之重器”,各国均频繁从国家层面启动研制计划。在中国多次上榜全球高性能计算TOP500后,高性能计算从产业链条和技术层面被遏制,中国E级和后E级高性能计算的发展遇到在严峻的国际环境下,如何突破外部限制与封锁,保持我国超级计算机的持续发展,自主可控成为唯一出路!面对挑战,中国超算产业需要在超算系统体系结构的创新,关键技术的突破和软件硬件的协同上发力。近十几年,中国在超算关键根技术上不断加大投入和自主创新,初步完成了超算自主可控生态体系的建设。随着“天河”和“神威”超级计算机、“飞腾”和“申威”处理器等标志性成果的出现,打破了长期以来国产超级计算机平台无“芯”可用的局面,奠定了安全、自主、可控的国产平台技术基础。在“磁退硅进”的全球发展趋势下,我国大力发展以半导体为核心的新一代闪存技术。目前我国企业已实现一部分关键技术的领先和芯片供货的国产化,具备了一定的产业基础。通过提升闪存等先进存储在超算存储系统占比,可以有效规避当前机械硬盘面临的卡脖子风险,进一步构筑自主可控数据底座。截至目前,中国在跨域数据管理系统、分布式并行文件系统以及超算集群等方面,相比国外厂家已取得优势;在超算/AI/大数据等应用生态、容器应用平台。以欧拉为代表的操作系统等均实现对国外厂家的追赶。中国在存储性能、集群扩展、安全可信、绿色节能等领域充分体现了数据基础设施技术的先进性。领域国内方案国际地位领域国内方案国际地位集群扩展支持10EF级计算集群并发支持扩展至集群扩展支持10EF级计算集群并发支持扩展至EB级存储集群绿色节能数据零丢失,服务永远在线自带防攻击,数据安全共享等保三级聚合带宽>10TB/s聚合IOPS>3亿IO时延<500us碳达峰、碳中和绿色数据中心安全可信存储性能存储根技术存储根技术是中国超算产业健康发展的基石坚持科技自立自强,发展自主可控数据基础设施分布式文件系统CPU处理器介质颗粒SSD控制器具备端到端全栈自主可控能力应用生态HPC/AI应用生态HPC/AI/大数据并跑容器应用平台并跑跨域数据管理系统GFS领跑分布式并行文件系统OceanFS领跑存储介质长江,长鑫等国家厂家追赶操作系统EulerOS并跑集群OceanStorPacificHPDA集群领跑存储处理器&控制器鲲鹏+SSD鲲鹏+并跑图1-16中国“数据基础设施”关键根技术持续突破创新,实目前中国已初步具备建立自主可控数据基础设施的条件,可基于端到端全栈完全自主能力构建安全可信的1.7.1超算系统商业应用和未来演进面临能效挑战1.7.1超算系统商业应用和未来演进面临能效挑战随着超算系统规模的不断扩大和性能的不断提高,其能耗和散热问题日益突出。根据国际能源署的数据,全球超级计算机的能源消耗量已经超过了一些小国家的总能源消耗量。在当前可持续发展的宏观背景下,超级计算的能效不仅影响了超算的运行效率和可靠性,也关系到环境保护和资源利用效率。因此,提高超算系统的能效比和降低碳排放已经成为超算行业的重要目标。其中能效比是衡量计算机性能和能源消耗之间关系的指标,它表示单位计算能力所消耗的能源量。下图是过去10年根据Green500榜单公布的历年最佳超级计算机的能效比,虽然十年间能效比提升了10余倍,但是近两年持平,维持在60GFLOPS/W。GFLOPS/W7060504030201020132014201520162017201820192020202120222023图1-17近10年Green500最佳超算计算机能效比目前超算系统性能和能效的提升速度之间有大概十多倍的差距,如果性能提升1000倍,能效可能只能提高不到100倍。现在E级计算机能耗大概50兆瓦,按此推算Z级计算机能耗大约在500兆瓦左右。从经济角度来说,P级计算机一年运营经费大概几千万人民币,E级大概几个亿,而Z级一年运营经费需要几十个亿。超级计算机的高能耗也导致高过去超算技术进步有两条路,包括单个芯片性能的提高,以及系统所含的处理器数量的提高,即并行规模的扩大。目前这两条路都碰到了天花板,芯片工艺逐渐接近极限,摩尔定律接近失效;而并行规模基于上述能效原因也不能再无限扩展。从超1.7.2通过软硬件设计优化提升超级计算机能效,实现超算系统可1.7.2通过软硬件设计优化提升超级计算机能效,实现超算系统可持续发展为了解决超算系统的能源效率问题,研究人员和工程师们已经提出了一系列的解决方案。首先,改进硬件设计是提高能源效率的重要途径。例如,通过改进超级计算机的制造工艺,减少电子元件的能耗,提高能源利用效率;采用更先进的散热技术,如液冷技术和热管技术,可以提高散热效率,减少能耗。此外,研究人员还提出了一些新的功耗管理技术,如采用动态电压频率调整(DVFS)技术,根据负载情况动态调整处理器的电压和频率,其次,改进软件设计也是提高能源效率的关键。如通过优化并行计算算法和任务调度策略,减少计算过程中的能耗;另外,超级计算机的大规模数据处理和存储也是能耗的重要来源。通过采用数据压缩和存储优化技术,减少数据传输和存储过程中的能耗。最后,通过采用能耗感知的任务调度策略,根据不同任务的能耗需求和计算资源的能耗特了很多优秀实践。国家超级计算无锡中心的神威太湖之光E级系统通过软硬协同的多层级功耗管理和基础设施“智冷”技术,等将能耗指标PUE值已降至1.22,实现年均节电量300万千瓦时。超级计算机的能源效率是一个重要的研究领域,对于实现超算系统可持续发展具有重要意义。通过改进硬件设计和制造过程,优化软件设计,以及借助新的能源技术,可以有效提高超算系统的能2.1HPC与AI走向融合,构建“5A”新型超算架构为更好应对新应用带来的生态复杂性变化、新业务催生的混合业务负载压力、新数据与算力协同带来的数据跨地域访问需求、新平台带来的安全稳定可靠及数据管理挑战,需要构建以应用为中心,支撑HPC、大数据、AI多系统融合业务的新型超任何视图管理(AnyView)作业管理设备管理用户管理数据管理统一作业调度统一设备监控任何视图管理(AnyView)作业管理设备管理用户管理数据管理统一作业调度统一设备监控统一用户分析多维数据透视…任何应用生态(AnyApplication)制造模拟生命科学天气预测精准医疗工业质检智能办公……人工智能高性能计算+大数据人工智能高性能计算+CIFS、NFS、HDFS、S3、Posix、MPIOBurstBuffer存算均衡大规模部署全对称架构横向扩展动态混合负载性能型平衡型归档型 BurstBuffer存算均衡大规模部署全对称架构横向扩展动态混合负载性能型平衡型归档型 数据密集型存储底座任何业务负载(AnyWorkload)ParallelIO、GCC、SparkShuffle、CheckPoint、BatchLoad……近计算机加速并行文件系统任何位置访问任何位置访问(AnyWhere)DC1DC3DC2一体化存储集群,数据互联互通边缘边缘任何状况在线任何状况在线(AnyCondition)设备故障、病毒攻击、数据泄露、数据中心故障、供应安全 稳定多活多DC数据持久访问 安全防病毒、防勒索全栈国密自主可控健康监测 可靠冗余保护数据中心灾备图示2-1数据密集型超算异构融合全栈架构·任何应用生态(AnyApplication)HPC高性能计算、大数据分析及AI人工智能分析新型应用不断涌现,业务生态走向融合,需要具备支持多协议融合、科学计算工作流优化等能力。实现制造模拟、生命科学、天气预测等传统HPC应用向精准医疗、工业质检、智能办公等HPC+大数·任何业务负载(AnyWorkload)HPC、大数据、AI多技术融合带来多业务混合负载,面对HPC应用并行IO访问、GCC编译、大数据SparkShuffle、AI大模型CheckPoint、BatchLoad等混合负载诉求,需要近计算加速Burst并行文件系统可解决带宽和IOPS型业务共存的问题,应对动态混合I/O负载,需要全对称分布式架构设计,根据不同业务访问需求,多协议按需访问,·任何位置访问(AnyWhere)多中心部署正在成为新常态,数据分布在核心超算中心、边缘超算中心等多超算中心,需要融合数据资源池,面向不同类型的异构设备及产生的海量数据,提供统一数据存储,实现跨超算中心的热、温、冷数据自动分级,全生命周期数据管理。面向跨集群的统一元数据管理,元数据全局可见,数据在任何位置都能轻松就近访问、安全流动,突·任何状况在线(AnyCondition)为了满足新型HPDA多应用场景对安全稳定可靠的更高要求,应对病毒攻击、数据泄露新挑战,需要具备主动健康监测、防病毒、防勒索、全栈国密的能力,同时保障供应安全,实现安全的超算平台,针对设备故障、超算中心故障等风险,需要具备多活多DC、数据冗余保护、数据中心灾备等关键能力,保障超算数据平台的稳定可靠,实现数据访·任何视图管理(AnyView)面向HPDA平台作业管理、设备管理、用户管理、数据管理等全场景管理诉求,需要统一智能管理平台提供统一作业调度、统一设备监控、统一用户管理、多维度数据透视,实现设备状态持续监AnyApplication:新型应用不断涌现,数据密集型超算应具备随着数据密集型超算的发展,业务生态场景趋向复杂,常常需要考虑传统HPC、大数据、AI混合叠加的情况。以油气勘探场景数据的处理为例,需要对野外地震勘探所采集的地震数据进行现场处理,然后到超算中心进行多步预处理、合成地震记录、三维地震解释标注、时深转换、地质建模、油藏模拟、数据归档等十多步数据处理环节,最终由地质专家根据生成的地质构造图确定油气位置、储量大小、开采价值和策略等。数据采集阶段需要使用CIFS/S3格式把数据存储在边缘存储中,经过预处理后,以NFS/POSIX格式传入中心存储作为核心数据。由中心存储以POSIX格式共享给其他各个业务环节使用。场景中使用Omega、Geo-vation、Vista、Echos等几十种软件,中间数据会有10-20倍的膨胀,达到10PB级别。油气勘探场景天然需要高性能计算对大规模的数据进行三维重建,为满足场景中多业务流程的需求,超算需要具备支持多协议互通、科学计算工作流优化等能力,同时兼顾全应用生态演进,立足当下,满足未来5-10年的发展需求。2.2.1应用快速发展,需要多协议融合互通能力支撑业务未来演进2.2.1应用快速发展,需要多协议融合互通能力支撑业务未来演进(1)从业务角度来看,各种应用需要不同随着业务应用的发展,一套超算常常需要支持多种业务应用。HPC业务采用S3、NFS、CIFS、SMB、标准POSIX、MPI-IO等协议访问,大数据业务采用HDFS、MapReduce等协议访问,AI业务采用NFS、标准POSIX等协议。面向未来业务应用的融合超算,需要支撑兼容业务应用的多种协(2)应用不断演进,新的协议还将层出业务的交叉演进,数据的不断增加,迫使应用不断演进出新的协议需求,如何面向未来,兼容新协议接口,做到系统内部改动最小,接口迭代开(3)超算应具备容器native承载能力容器作为一种轻量级的虚拟化技术,可以将应用程序及其依赖项打包成一个可移植的容器,通过让应用程序在不同的环境中运行,提高业务的部署效率和可靠性,减少部署时间和成本。容器化还可以实现快速扩容和缩容,以应对业务高峰期和低谷期的变化,提高了系统的弹性和可靠性。基于容器随着业务的发展,还将涌现出更多协议、技术栈,未来的超算应支持多协议无损互通,支持多技2.2.2数据分析广泛应用,需要支持2.2.2数据分析广泛应用,需要支持科学计算工作流,提升业务效率科学计算工作流是指在科学研究中,通过计算机模拟、数据分析、比对等方式,对实验数据进行处理和分析,从而得出科学结论的一系列流程。在现代科学研究中,计算已被广泛使用,然而不同应用的计算流程差异很大,不同环节对超算系统要求也不同,如何针对应用场景,支持计算流程是提升业务速率的关键,甚至直接决定了科研的商业转化(1)存储需要支持科学计算工作流,目录以AI模型训练为例,业务流主要包括数据获数据获取主要是把多方获取的数据进行脱敏、合规、汇聚到边缘存储,再用NAS协议或S3协议统一存储到中心存储元数据库中,作为原始数据。数据预处理是由预处理服务器对数据进行格式统一、错误纠正、异常数据清理、重复数据清理的过程。这步一般采用NAS协议或HDFS协议进行数据访问,最终形成训练集数据和索引数据集。20流程阶段数据预处理原始数据->训练数据推理应用输入数据+模型->Vector流程阶段数据预处理原始数据->训练数据推理应用输入数据+模型->Vector->应用模型训练原始数据+训练+调优+评估-》模型数据获取三方收集、网络爬取、边缘汇聚…计算处理流程计算处理流程预处理服务器格式标准化错误纠正异常数据清理重复数据清除 GPU4基础大模型训&推理行业模型训推一体化预处理服务器格式标准化错误纠正异常数据清理重复数据清除 GPU4基础大模型训&推理行业模型训推一体化脱敏、合规、审批、汇聚GPU1脱敏、合规、审批、汇聚GPU1GPU2边缘存储边缘存储GPU2边缘存储边缘存储GPU3…GPU3…模型加载数据并行模型加载数据并行小文件、高IO向量存储加速HDFS协议小文件、高IO向量存储加速HDFS协议NAS协议多协议融合互通GDS全域数据管理动态混合负载数据处理流程全域数据管理动态混合负载数据处理流程高性能层高性能层CheckCheck原始数据训练集数据索引数据LOG向量库业务数据原始数据训练集数据索引数据LOG向量库业务数据向量库智能分级智能分级热温冷智能分级跨域数据灾备全域数据管理热温冷智能分级跨域数据灾备全域数据管理数据安全可信大容量层图示2-2AI大模型业务全流程模型训练是由计算使用训练数据集对模型进行训练,不断调整模型参数,使其能够更好地拟合数据。一般采用GDS或POSIX等高速接口满足动态推理应用是通过训练好的模型对输入数据进行处理,系统需要存储过程向量,完成明确目的的任务。多次训练需要频繁访问向量库,处理过程是对GPT4未来训练数据可达PB级别,从单模态发展为兼容多模态,海量数据分配到不同CPU、GPU上并行计算,小文件存储被频繁读取,涉及到数据的频繁迁移,系统间的IO性能差异可能成为制约业务的瓶颈。资源的使用需要通过科学计算工作流进行管理和调度,以确保资源的充分利用和任务因此,加速AI全流程,需要系统支持多协议融合互通、支持混合负载的高性能访问、支持数据的全生命周期管理。当前AI大模型训练有多种实现方式,早期的计算+共享存储+本地SSD盘的存储架构已无法满足大模型的未来发展要求。新的高性能、大容量、独立融合的统一数据基座正成为新的主流(2)利用AI模型优化传统业务计算流,例如:利用盘古AI大模型优化气象预报。传统业务把WRF、GFS、ECMWF、CAM等天气预测软件部署在超算上,软件求解物理方程进行预测,求解过程高频反复迭代,累积误差影响精度。如中国气象局台风路径预报精度很难控制在60km范围内,面临计算量大、高IO、耗时长(高IO)挑战,每天仅能进行2-3次预报,通过将原先的HPC数值模拟流程采用。通过采用大模型预测算法,使推理过程迭代次数减少,累积误差减小,计算更加高效,实现10秒~1分钟内出7天预报结果,每天可进行多次预报。气象人员还可根据经验通过构建多个数据模型初值,生成预报集合(集合预报),进一气象预报服务盘古气象大模型(AI)同化系统预报系统(AI大模型推理)后处理系统气象预报服务盘古气象大模型(AI)图示2-3气象AI大模型推理流程AnyWorkload:多技术融合带来多样负载,数据密集型超算2.3.12.3.1HPC+AI+BigData多样性应用,需要动态混合负载承载能力世界各大超算系统被广泛使用于需要高算力与高数据量的应用,而近年来人工智能的发展也使愈来愈多的与人工智能技术相结合,更进一步对超算系统·自动驾驶应用随着自动驾驶技术由L3向L4演进,数据量倍增,每车每天可产生约60TB数据。数据收集导入阶段为PB级别的数据量写入,而预处理后的数据集写入即可对存储系统产生百GB/s的带宽需求。之后的训练阶段则需要从存储读出海量大小文件,要求存储提供百万级IOPS。而仿真阶段,亦要求存储提供百GB/s以上带宽。最后在推理阶段,应用的实时性要求数据读写.AI大模型训练如GPT-3这样的大模型,拥有千亿级参数,训练数据集可达几千亿级,而文件平均大小往往在10KB-500KB之间。训练阶段需要从存储快速加载海量小文件,要求存储系统提供千万级IOPS性能。而下一代的GPT-4大模型,则会要求存储提供亿级IOPS性能用于训练。同时,由于大模型训练的出错率较高,平均每天需要多次将体量较大的CheckPoint文件写入存储,而之后的模型评估也对存储系统中模型的读出有极高的带宽要求。这意味着存储系统需要能同时提供小文件的亿级IOPS读写,以及大文件的TB/s级别读写带宽。诸多应用在统一超算平台上同时运行,需要超算平台的数据存储系统能同时满足高性能计算(HPC)、人工智能(AI)、大数据分析(BigData)类别的数据访问。顺序大IO的带宽类、随机小IO的高IOPS类、批量元数据操作的OPS类、还有同时访问同一个文件的并行IO类这些数据访问包·批量元数据操作的OPS密集型··小文件随机小IO的IOPS密集型···超算平台的数据存储系统需要设计动态均衡能实现以应用为中心,面向高性能计算(HPC)、人2.3.2E级大规模应用,需要近计算实现加速2.3.2E级大规模应用,需要近计算实现加速新一代E级超算,作为国家在新信息技术领域的重要部署,将有力驱动国家信息技术产业创新发展,研发适配国产超级计算系统的关键技术和应用软件,构建新的国产E级超级计算应用生态。国家超级中心联合发布了“面向新一代国产E级超算系统的十大应用”,例如:面向通用人工智能的超大规模预训练模型、FAST超大规模观测数据的高分辨率巡天图像处理、全脑千亿神经元动力学仿真、完全分辨率的全球次中尺度海洋数值模拟等,以解决世上述大规模应用对E级超算系统带来了如下挑大规模RDMA连接导致内存资源开销大、网络交互端口冲突带来了长尾时延;(2)大规模应用如何应对整体系统可靠性:业界E级大规模集群MTBF较小,对CheckPoint具有较高依赖,业务效率对BB互相干扰:IO性能无法达到预期,单系统利用率不高;(4)如何避免少量存储节点慢对整体速度的影响:少量存储节点处于亚健康状态,导致的短木板BurstBuffer作为在E级超算中应用的一种高速缓存技术,需要提供近计算加速部署,突破性能和扩容性瓶颈,利用分布式计算的优势加速大规模应用计算问题的解决。同时,也要求计算节点和缓存节点根据拓扑关系分组配对,就近创建作业,作业间数据隔离。通过RDMA网络,实现大规模网络快速收敛,满足数万级计算扩展能力,支撑EF/10EF计算汇聚网络计算汇聚网络计算接入网络计算层计算接入网络计算接入网络计算接入网络加速层加速层BurstbutterBurstbutter存储层存储接入网络存储层存储接入网络智能分级智能分级SSD存储池

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论