




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据密集型超算发展白皮书2023超级计算创新联盟数据密集型超算工作组2023年8月顾问陈国良张云泉周跃峰主编金钟林新华唐卓张兴军王毅肖利民王怡东庞鑫顾雪军潘景山李少波韦建文王继彬高巍苏亮徐恩松张洋李亚子贾海鹏韩振兴王旭东编委(排名按姓氏拼音不分先后)陈阳陈振华柴旭清戴奇志段芳成丁江波樊春范靖龚斌高亦沁高芬郭武郭洪星胡俊胡广超李会民李昕伟刘畅李斌杰鲁蔚征郄军利宋平宋天宇孙晓艺孙敏淮唐小勇王青王成伟王继彬王炳强万林魏旗鹏姚舸曾帆曾令仿张凯丽张震邹有赵顺存王世葆感谢以下机构参编支持(排名不分先后):北京大学北京航空航天大学长沙理工大学贵州大学河南师范大学湖南大学兰州大学南京大学上海交通大学山东大学深圳大学西安交通大学中国人民大学中国医学科学院中国科学技术大学中南大学超级计算创新联盟国家超算济南中心国家超算长沙中心华为技术有限公司科大讯飞崂山实验室联科中国鹏城实验室青岛国实科技有限公司中科院科学计算所中国信息通信研究院之江实验室化建设能力的一个重要体现,被誉为"国之重器”。数据密集型超算,是高性能计算与人工智能、大数据等新一代信息技术融合后围绕数据价密集型超算的典型应用场景。数据的准备至关重撑HPDA(HPC+大数据+Al)多系统融合业务发展。陈国良很好的契机,促使我们去系统化地思考超算的过AlGC热潮的背后其实就是超级计算机技术与超算从诞生开始就致力于加速重大科研的创新,而超算与Al的融合将实现科研创新的又一次Meta基于650亿参数和4.5TB训练数据开发了LLaMA,而OpenAl基于1750亿参数和570GB训上不及GPT-3.5的50%,但其表现能力在多数基了8倍。由此可见,提升Al大模型精度、数据规模“一桥飞架南北,天堑变通途”,超算互联正所谓内行看门道,互联普遍意义上是指算力的互联,实际上数据的互联和流动才是超算互联的底·从超算中心的物理部署来看,需要实现不同超算中心的数据互联,并提供跨地域、跨系统的全局统一数据视图以及调度。让任意位置的数据都随时随地可快速访问,并实现数据的按需分级与流业务集群间的数据互联。这是因为数据密集型HPDA往往对应的是数据驱动的一套序贯式科学业务流,譬如基因测序往往包括文库制备、格式转换以及生信分析等多个业务阶段,传统意义上不同的业务集群往往是烟囱式独立建设模式,频繁的数据因此,我们认为超算互联要面向多样化业务要构建安全、可靠的统一数据底座,基于高性能专业存储的多协议、冷热温自动分级以及全局文件系统水不腐户枢不蠹,数据只有在更大范围的充分流动与共享,才能真正促进信息的数字化,才会有价值超算中心大规模集群化,低碳绿色成为关键诉求。E级超算的建设当前已经是屡见不鲜,并且随着整体应用算力需求与单卡之间的算力剪刀差持续加大,导致集群规模越来越大。尽管大规模集群往往意味着国之重器,科研利器,但与此同时超算系统的能耗和散热问题日益突出。因此,提高超算系统的能效比和降低碳排放已经成为超算行业的重要超算中心以及智算中心由于其极致的业务性能诉求,特别是随着AIGC业务的爆发,高性能的全闪专业存储将成为首选。全闪存一方面意味着应用性能的极致表现;另一方面在单位容量的功耗上要大幅降低。不仅如此,随着业界闪存大容量盘的加速推出,其逐步凸显的性价比优势也将加速业界全随着超算业务的多样化趋势,算力的多元化以及数据的多模态发展愈发明显。数据密集型应用驱动在算力层面GPU占比越来越高。提升GPU的资足相对确定的应用算力需求,提高能效比。在存储创新方面,一方面通过面向混合负载的极致高性能,通过减少GPU在数据加载等待时间提升利用率;另一方面还可以有通过近存计算实现近数据预处理,让数据在存储就完成部分数据准备任务,减这次数据密集型超算发展白皮书2023的发布,正好是在Al大模型这样的时代背景下,其对于中国超算行业之重大意义,丝毫不亚于无线通讯领域从3G/4G时代突破式地迈向了5G时代。在全新的产业赛道上,中国科技要携手起来坚定并坚持自华为公司副总裁1数据密集型超算最新趋势 1.1数据密集型趋势下,高性能计算面临六大挑战和需求011.2数据密集型应用加速发展,对存储性能提出更高要求021.3HPC和Al融合,加速改变科研及生产效率051.4超算互联上升至世界各国国家战略,数据基础设施先行081.5超算安全关系国计民生,数据资产安全成为重点1.6中国“数据基础设施”关键根技术有突破、有创新,可支持全栈自主可控141.7提高能效比和降低碳排放,支持超算发展和持续演进152数据密集型超算技术架构 2.1HPC与AI走向融合,构建“5A”新型超算架构172.2AnyApplication:新型应用不断涌现,数据密集型超算应具备丰富的应用18生态承载及演进能力 2.3AnyWorkload:多技术融合带来多样负载,数据密集型超算应具备承载动21态混合负载及应用加速能力2.3.1HPC+Al+BigData多样性应用,需要动态混合负载承载能力2.3.2E级大规模应用,需要近计算实现加速222.3.3超算“性能墙”和“能耗墙”两大挑战,推动分布式全闪存储替代势在必行232.4Anywhere:多地域超算互联,需要跨域全局数据统一管理能力242.4.1算力和数据协同调度,数据全局可视242.4.2数据分级管理,应用无感访问242.5AnyCondition:全方位可信设计,保障业务永远在线,数据永不丢失252.5.1应对数据风险与业务风险挑战,超算平台进行全方面安全保障252.5.2应对灾难事件时生产中断挑战,超算平台稳定性设计保障业务永远在线262.5.3数字资产作为企业核心财富,存储数据要做到永远可靠不丢失272.6AnyView:多应用场景的统一智能管理平台提升管理效率272.6.1统一设备管理系统,提升运维管理效率2.6.2超算建设模式走向集约化,需要统一高效的作业管理282.6.3数据全生命周期管理,夯实高效、全面、智能的数据底座283数据密集型超算优秀实践3.1国家超算济南中心:打造中国最大规模数据密集型超算应用标杆293.1.1国超济南中心发展势头迅猛,构建引领全球科技发展的“最强大脑”293.1.2面对海量数据存储和计算效率的挑战,国超济南中心积极追求HPC架构转型293.1.3国超济南中心采用统一存储底座,打造标杆级新型超算中心303.1.4统一存力底座助力国超济南中心成就超算标杆303.2上海交通大学:Al存力基座助力教育科研发展313.2.1Al时代,学校高性能计算中心面临新场景海量数据挑战3.2.2“一存力,多算力”的统一存力基座方案3.2.3存力基座助力教育科研发展3.3中国医学科学院:全栈自主可控、GPU生信加速打造安全、高效的基因测序超算平台3.3.1快速测序、海量基因数据存储成为基因测序领域的重大挑战3.3.2高效、敏捷、自主可控的一站式基因测序全栈解决方案3.3.3全栈国产化平台助力医学科研成果转化3.4科大讯飞:高性能、稳定可靠的统一数据管理底座是大模型训练的关键3.4.1Al大模型训练中的挑战3.4.2强强联合,打造最佳大模型算力+存力全栈方案3.4.3在HPC与AI的融合创新中走向独立自主数据密集型超算发展白皮书2023数据密集型超算最新趋势数据密集型趋势下,高性能计算面临六大挑战和需求2025》报告预测,从2018年至2025年,全球数据将从2018年的33ZB增至2025年的175ZB,数据量2018年的7.6ZB到2025年将增至48.6ZB,占全球数据圈比重将从23.4%发展到27.8%,中国将成为助人们从海量的数据中探索人类社会和宇宙的未的爆炸性增长,科学计算(即“第三范式”)中的在此趋势下,我们发现在高性能计算在应用新的数据密集型应用,产生了新的数据模了Al智能高度。发展先进数据存力基础设权。1数据密集型超算最新趋势应用,数据密集型化应用,数据密集型化互联,跨域全局管理新安全,数据资产保护全栈自主可控绿色,软硬系统节能图1-1高性能计算六大挑战和需求随着与大数据、Al等新的数据分析技术和工具结合,HPC的诉求从以数值计算为主,衍生到与大数据知识挖掘及Al训练推理结合的HPDA高性能数据分析时代。大数据、Al技术及科学观测仪器能力提升,给应用带来更大的处理数据量。同时新的数据密集型应用,产生了新的数据模型,驱动新的近数据计算架构发展。随着物联网技术、大数据技术的飞速发展,超算系统处理的数据量爆炸式增长。得益于科学观测仪器能力的不断提升,大幅提高了采集的速度和广度,如:高通量测序仪通量从几十个GB,提升到现在几个TB级别通量;全球数以百万计的传感器都在一台冷冻电镜6TB/一台冷冻电镜1台基因测序仪对宇宙、气象、生物、物理和化学过程进行实时观测和记录,在取得更好的计算或者模拟效果的同时也产生大量观测数据。计算设备运行各种科学模型任务,在进行大规模模拟计算的同时会产生大量的科学数据。1颗遥感卫星1个高能同步辐射光源中心1立方厘米->PB类脑研究1立方厘米->PB类脑研究1个SKA平方公里阵列图1-2典型超算场景的数据量数据密集型超算发展白皮书2023从初步统计看,目前大部分典型的超算应用起步档已经是PB级。面向新兴的应用譬如脑科学等,其单场景的数据规模则可能更大。制造CAE制作仿真、设计仿真动画渲染图像渲染、动画制作计算物理-数值方法分析计算分子性质根据测试和分析,数据量的变大,会导致对应的计算数据模型和存储访问数据模型也发生较大变化。基因测序、气象预测、油气勘探等数据密集型应用相对分子动力学、化学等数值型计算应用,在写IOPS和读写带宽上产生数量级的增加,其文件大读IOPS写IOPS读带宽写带宽文件大小分子动力学小文件化学3小文件基因组序列比对大文件(IO为128K以上,文件>=1GB)气象数值预报模式预测大文件(IO为128K以上,文件>=1GB)油气勘探大文件(IO为4K以下,文件>=1MB)和小文件并存数据预处理NFS仿真NFS/CIFS验证NFS/HDFS海量小文件极致OPS和时延<1ms时延数据导入图1-4自动驾驶数据流图数据收集导入S3单客户端顺序写大文件数据预处理大文件聚合顺序读,多客户端顺序写小文件多线程小IO随机读多个小文件仿真单线程大IO顺序读大文件表1-2自动驾驶业务数据模型分析数据密集型超算发展白皮书2023Al赋能机理计算是目前超算的一大趋势,通过数据驱动Al计算,利用人工智能技术对机理计算进行优化和加速,提高计算效率和精度,从而实现更加准确的预测和决策。例如日前国际顶级学术期刊《Nature》杂志正刊发表了华为云盘古大模型研发团队研究成果《三维神经网络用于精准中期全球天气预报》。受限于气象观测的准确度,大气系统中物理过程的复杂性,传统数值方法所需计算资源规模巨大,全球中期天气预报的有效性每10年才提高1天。而华为盘古气象大模型是首个精度超过传统数值预报方法的Al模型,速度相比传统数值预报提速10000倍以上,改变了近些年数值天气预报精度提升缓慢的瓶颈。科学计算科学计算(HPDA=HPC+BigData+Al)机理计算与Al计算相结合30天→1天算不了、算不准、算不动计算效率提高1000倍,计算空间尺度增大1001.3.2数据决定Al智能的高度,数据存储成为大模型时代的核心基础设施一、数据数量和质量决定Al智能的高度的算法、多么庞大的算力都无法带来高质量的成数据中的规律。然而基于小规模数据所建立的模聚合策略来减少预报迭代次数,从而减少迭代误二、数据存储是大模型时代发展Al的核心基础设施练集,但是当前海量小文件的加载速度不足其三,大模型参数频繁调优,训练平台不稳一站式交付1.3.3发展先进数据存力基础设施,是构建大模型时代高质量发展的基石一、支持数据新范式:数据编织大幅缩短Al大模型数据准备时间二、高性能、向量检索加速Al高性能存储:大、小文件自适应读写,高三、面向Al业务模型分析的可靠数据存储服务四、支持数据价值精准识别与治理,降低数据全生命周期管理TCO客户端自动failover到其他集群对应的备份目录。预处理服务器训练服务墨推理服务器训练数据传输在储网络优化性能型存储(必选)容量型存储全局数据视图向晕化存储近数据随路处理原始数据层图1-8面向Al先进存力基础设施超算互联上升至世界各国国家战略,数据基础设施先行美国将高性能数据密集型基础设施上升至国家任务,2023年3月10日美国能源部(DOE)宣布了一项提案,要求国家实验室主导高性能数据设施集型科学先进基础设施的新科学用户设施,DOE预计HPDF项目在投资约为3-5亿美元。HPDF的使命将是通过提供最先进的数据管理基础架构、功能和工具来实现和加速科学发现。HPDF将在管理科学数据生命周期方面发挥领导作用,并将推进能源部和政府对公众获取科学数据和公平数据原则(可查找、可访问、可互操作和可重复使用)的承诺。该设施将设计为动态配置计算、网络和存储资源,以访问静止或运动中的数据,支持使用精心策划的数据集,以及直接从实验或仪器数据密集型超算发展白皮书2023DOE的研究机构之间经常有任务式的PB级大数据量搬运,数据增长越来越快,且新型科学研究需要科研机构之间的大数据量互访。能源部设想,将以HPDF为基础采用“Hub-and-Spoke”模型,在Hub处托管集中的资源,并通过在Spoke或其他地点部署和协调分布式基础设施来支持高优先级的美国能源部任务应用。Hub和Spoke将通过Esnet进行互联。1.4.2欧洲成立超算联合体,构建一体化超算基础设施一、“一体化超算基础设施”成为欧洲未来超算建设重点施,支撑欧洲高竞争力创新的HPC&大数据生态的使命。2021-2033年期间将投资80亿欧元新预算用于持续扩大部署世界级的超算中心,其中Federation2023+项目,计划互联所有EuroHPC系统的HPC资源并提供以下服务:(1)身份验证、授权和认证服务;(2)算力服务,包括交互式计算和云接入-虚拟机-容器的服务;(3)数据服务,包括归档服务和数据库服务,数据流动和传输服务;(4)用户和资源管理服务。二、意大利打造“国家数据湖云计算基础设施”,打破计算存储资源孤岛壁垒该中心超算建设战略目标是为国家战略部门(超算,人工智能,数值模拟等)提供创新ICT资近年来,在科技部和各省市政府的积极推动技创新、社会民生、数字经济发展。随着以大数接口不统一、应用软件自主研发和推广不足等问为了解决上述挑战,科技部于2023年4月启动国家超算互联网部署工作,用互联网思维运营超台。按照计划,到2025年底,国家超算互联网将正式启动国家超算互联网数据密集型超算发展白皮书2023国家超级计算济南中心(以下简称“济南超算”)在超算互联走在了全国前列。2022年7月22日,2022中国算力峰会,超算互联网工程正式上图1-12超算互联网上线启用图1-13“东数西算”数据存储集群系统上线济南超算率先在建设省域沿黄9市的算力平台,并逐步构建济南超算-山西超算-西安超算-郑图1-14山东省16地市超算互联网规划超算安全关系国计民生,数据资产安全成为重点1.5.1国家级网络攻击对抗愈演愈烈,科研重点单位成为重点目标之一超算中心是国家计算基础设施,是推动科研创新和工业发展的关键动力,其平台及数据安全关乎国计民生,也是国家级黑客组织的重点攻击目标之一。近年来,随着网络空间大国博弈的持续深入,网络攻击从民间组织上升到国家级黑客组织,对他国开展网络攻击、网络窃密等活动已屡见不鲜。2022年3月,根据360公司报告披露,具有境外背景的黑客组织对中国开展无差别网络攻击,攻击行为极为隐蔽,持续长达十余年。目标对象涵盖了党政机关、科研院所、高等院校、医疗机构、行业龙头企业,以及关乎国计民生的各个行业关键信2022年9月,国家计算机病毒应急处理中心和360公司分别发布了关于西北某高校遭受境外网络攻击的调查报告。调查显示,境外组织使用40余种网网络交换机、路由器、防火墙等数以万计的网络设2023年7月,奇安信公司发布的《全球高级持续性威胁(APT)2023年中报告》显示,2023年上半年全球范围内,政府部门和国防军事领域是APT攻击的首要目标。与去年同期相比,教育、科研领域相关的攻击事件比例增高,占比分别为11%和9%。从近年网络攻击态势看,国家级黑客组织的猖獗活动将愈发增多、愈演愈烈,各类基础设施的安全将长期处于前所未有的战略承压期和高危风险期,这一特征在相当长一段时间内不会改变。媒体3%加密货币4%通信4%医疗4%政府科研9%科研9%1.5.2各国陆续出台法律法规,提升数据战略地位,加强数据安全保护力度虽然2020年受疫情影响,全球整体经济增长减石。和2020年行动计划》。联邦数据战略以2020年为2020年2月,欧盟发布了《欧盟数字化战设能力的“国之重器”,各国均频繁从国家层面启动研制计划。在中国多次上榜全球高性能计算TOP500后,高性能计算从产业链条和技术层面被遏制,中国E级和后E级高性能计算的发展遇到为唯一出路!面对挑战,中国超算产业需要在超算数据密集型超算发展白皮书2023 聚合带宽>10TB/s聚合IOPS>3亿IO时延<500us 具备端到端全栈自主可控能力容器应用平台并跑并跑并跑存储介质长江,长鑫等国家厂家并跑图1-16中国“数据基础设施”关键根技术持续突破创新,实现安全自主可控提高能效比和降低碳排放支持超算发展和持续演进计算能力所消耗的能源量。下图是过去10年根据图1-17近10年Green500最佳超算计算机能效比只能提高不到100倍。现在E级计算机能耗大概50兆瓦,按此推算Z级计算机能耗大约在500兆瓦左1.7.2通过软硬件设计优化提升超级计算机能效,实现超算系统可持续发展能耗,提高能源利用效率;采用更先进的散热技其次,改进软件设计也是提高能源效率的关至1.22,实现年均节电量300万千瓦时。超级计算机的能源效率是一个重要的研究领 可能数据密集型超算发展白皮书2023数据密集型超算技术架构HPC与Al走向融合,构建“5A”新型超算架构为更好应对新应用带来的生态复杂性变化、新业务催生的混合业务负载压力、新数据与算力协同带来的数据跨地域访问需求、新平台带来的安全稳定可靠及数据管理挑战,需要构建以应用为中心,构,能够更好应对数据密集型超算的新需求,实现以数据和应用为中心,支撑任何应用生态,承载任何业务负载在任何位置访问,应对任何状况在线,并可通过统一视图管理。管理监控图示2-1数据密集型超算异构融合全栈架构 2数据密集型超算技术架构Load等混合负载诉求,需要近计算加速Burst量数据,提供统一数据存储,实现跨超算中心的户管理、多维度数据透视,实现设备状态持续监AnyApplication:新型应用不断涌现,数据密集型超算应具备丰富的应用生态承载及演进能力会有10-20倍的膨胀,达到10PB级别。油气勘探具备支持多协议互通、科学计算工作流优化等能2.2.1应用快速发展,需要多协议融合互通能力支撑业务未来演进(1)从业务角度来看,各种应用需要不同的协议来支撑用的融合超算,需要支撑兼容业务应用的多种协(2)应用不断演进,新的协议还将层出不穷协议接口,做到系统内部改动最小,接口迭代开(3)超算应具备容器native承载能力2.2.2数据分析广泛应用,需要支持科学计算工作流,提升业务效率率。(1)存储需要支持科学计算工作流,目录刷新以Al模型训练为例,业务流主要包括数据获计算处理流程张量井行向量读取模型加载计算处理流程张量井行向量读取模型加载流程阶段流程阶段三方收集、网络爬取、边缘汇聚..原始数据->训练数据原始数据+训练+调优+评估-》模型输入数据+模型->Vector->应用基础大模型训&推理预处理服务器行业模型训推一体化基础大模型训&推理预处理服务器则0边缘存储数据并行数据并行索引数据索引数据智能分级热温冷智能分级跨域数据灾备热温冷智能分级跨域数据灾备展为兼容多模态,海量数据分配到不同CPU、(2)利用Al模型优化传统业务计算流,取得了愈加显著的效果国气象局台风路径预报精度很难控制在60km范围过程迭代次数减少,累积误差减小,计算更加高效,实现10秒~1分钟内出7天预报结果,每天可进数据模型初值,生成预报集合(集合预报),进一模型状态气象预报服务AnyWorkload:多技术融合带来多样负载,数据密集型超算应具备承载动态混合负载及应用加速能力多样性应用,需要动态混合负载承载能力随着自动驾驶技术由L3向L4演进,数据量倍增,每车每天可产生约60TB数据。数据收集往在10KB-500KB之间。训练阶段需要从存算平台的数据存储系统能同时满足高性能计算超算平台的数据存储系统需要设计动态均衡能2.3.2E级大规模应用,需要近计算实现加速重要部署,将有力驱动国家信息技术产业创新发展,研发适配国产超级计算系统的关键技术和应用十大应用”,例如:面向通用人工智能的超大规模巡天图像处理、全脑千亿神经元动力学仿真、完全分辨率的全球次中尺度海洋数值模拟等,以解决世上述大规模应用对E级超算系统带来了如下挑大规模RDMA连接导致内存资源开销大、网络交互对整体系统可靠性:业界E级大规模集群MTBF较计算接入网络存储接入同络性能带来更大挑战;(3)如何应对并发的作业间的互相干扰:10性能无法达到预期,单系统利用率不高;(4)如何避免少量存储节点慢对整体速度的影响:少量存储节点处于亚健康状态,导致的短木板效应。BurstBuffer作为在E级超算中应用的一种高速缓存技术,需要提供近计算加速部署,突破性能和扩容性瓶颈,利用分布式计算的优势加速大规模应用计算问题的解决。同时,也要求计算节点和缓存节点根据拓扑关系分组配对,就近创建作业,作业2.3.3超算“性能墙”和“能耗墙”两大挑战,推动分布式全闪存储替代势在必行传统超算的存储系统大多使用基于HDD构建的分布式文件系统,并配置一定比例的SSD作为算平台上运行,要求超算平台的存储系统提供近展三年行动计划(2021-2023年)》提出到2021年底,新建大型及以上数据中心PUE降低到1.35以下。到2023年底,新建大型及以上数据中心降低能耗,而以HDD为主的存储系统则无法满足SSD的成本也在不断走低,在数据密集型超算系统中使用SSD替代HDD成为主流存储介质成为可能。SSD所具备的以下优势,将助力超算中心实时,机械硬盘的磁片内圈和外圈会有3倍以上的性能差异,访问不同的数据块,时延会在3~10ms之间抖动。而全闪存储可采用从主机接口到硬盘的统0.5ms以内。将单次访问时延从5ms降低到1ms。这使得SSD既可以应对高带宽的性能需HDD的1%以下。数据密集型超算系统中约有50%-70%数据为冷数据,存放于归档类存储设存储能很好的解决数据密集型超算中心的“性能Anywhere:多地域超算互联,需要跨域全局数据统一管理能力打造从边缘一中心协同新型数据平台,提供统一数据存储,能对数据进行跨域互联,跨域数据全局统一管理,数据在任何位置都能轻松就近访问,2.4.1算力和数据协同调度,数据全局可视速发展的潮流中,超算中心作为各行各业的关键基础设施,为我国经济转型升级提供了重要支撑。在国家政策的有力指引下,传统数据中心加快向具有高技术、高算力、高能效、高安全特征的新型数据中心演进,新型超算中心是指以支撑经济社会数字转型、智能升级、融合创新为导向,具备安全可靠能力、提供高效算力服务、赋能千行百业应用的新随着网络支撑能力不断提升,新型超算中心之间通过互联互通,算力水平也高效提升。算力与应用数据通过网络实现分散拉远的作用,把单一应用场景任务调用远程算力实现,把分散应用数据通过网络联接协同,把分散的算力与应用数据通过网络数据存储通过算力网络构建数据存储集群系统,实现对多DC全局设备互联和全局数据共享流动。通过全局文件系统组成全局名字空间,连通多调度的应用场景,支撑上层应用跨域调度时必需的数据透明调度能力,助力应用业务流在不同存储场全局文件系统(简称GFS)将分布在不同地域存储设备中的非结构化数据跨地域实时同步,呈现相同的数据视图给所有地域的用户和应用,实现了数据按需、自定义流动,满足跨域分析(Al训练,大数据分析)等多种应用场景高效使用数据需求。数据存储在不同的超算中心,根据预定义的策略在不同地域的存储设备间同步或缓存数据,提供应用无感的数据流动与访问的能力;支持多站点协作和数据按需、自定义流动,构建全局任意位置、动、协作的基础能力,打破数据孤岛,孵化存储高2.4.2数据分级管理,应用无感访问对业务应用来讲,并不是所有的数据都具有相同的使用价值。随着时间的推移,有些数据被频繁访问,而有些数据很少被访问,有些数据甚至在最大量的低使用价值数据既占用了高性能、高可靠的宝贵的系统资源、严重影响性能,又占用了大量存储空间,但往往这些数据又由于政策法规、数据仓库建设等原因不能删除。如何解决这些不常用的数据的保存问题,是目前超算中心面临的数据管不丢失算系统被攻击,核心数据将会受到直接威胁。因2.5.1应对数据风险与业务风险挑战,超算平台进行全方面安全保障更改配置等方式,使用户资产或资源无法正常使测的方式,存储管理员自主创建多个按需扫描任务,定义需要扫描的命名空间,系统执行按需扫2)防勒索的情况下,能够保障非授权人员对泄露数据不可2.5.2应对灾难事件时生产中断挑战,超算平台稳定性设计保障业务永远在线务系统能切换到其他可用数据中心(站点),继续承灾害、掉电、误操作导致的站点整体故障),上层统及部署方式有关),保障数据持续可访问、业务数据密集型超算发展白皮书20232.5.3数字资产作为企业核心财富,存储数据要做到永远可靠不丢失数据中心往往不可避免地发生设备故障,甚至极端情况下的数据中心故障。其中设备故障指设备的硬件、软件出现损坏和故障,例如磁盘损坏、节点故障、网络故障等。如何在设备故障甚至数据中心故障的情况下做到整个系统的可用、数据永远不丢失,是面临的一个挑战与难题。超算平台需要通过模块级可靠性、节点级可靠性、系统级可靠性、解决方案级可靠性等专业设计,以及精准的制造加工、系统运维管理等,来提供高可靠性。使用灵活的数据故障域安全布局和冗余保护策略,并通过端到端的数据完整性保护和各种故障场景下的数据保护设计,实现数据信息的高可靠存储和业务处理,和对本地的数据提供保护;使用数据中心灾备的技术,保障在极端数据中心故障的情况下,对整体数据进行保护,保障数据永远不丢失。多应用场景的统一智能管理平台提升管理效率随着业务的快速增长,数据密集型超算系统的规模变得越来越大,建设模式从分散式走向集约化,跨域协同成为超算业务的新常态,大规模跨地域的数据密集型超算管理面临着巨大挑战,提供统一智能全视角的管理平台成为基础能力。提供全视角的可视化管理,和多维度视图透视能力,让各个维度的系统状态看得见、看得清,大幅提升用户管理效率,降低系统运维难度。2.6.12.6.1统一设备管理系统,提升运维管理效率目前超算中心设备类型复杂,计算、网络、存储等不同系统管理方式存在差异,再加上超算中心规模日益扩大,设备运维管理效率也愈发降低。首先,对于不同设备类型管理,需要统一界面管理硬件基础设施,实现设备集中管理,解决不同设备类型管理的问题,提升用户的运维效率。其次,在设备运维方面,用户无法实时直观地了解和监控各个数据中心资源的运行情况,运维人员对故障的定界、定位困难。最后,在资源管理方面,传统业务的部署和扩容方式无法灵活应对突发的流量,需要面对以上挑战,第一,智能管理平台需要实现统一界面对数据中心不同硬件设备的管理,包括管理物理服务器,交换机、存储设备等,解决对不同设备类型的管理困难问题。第二,在设备运维方面,平台不仅需要支持对设备的监控还支持对不同设备进行配置和维护操作,还需要周期性的对相关设备进行健康检测,对设备健康度进行智能预测,让用户提前识别异常指标,提高运维效率。第三,在资源优化方面,通过智能管理帮助用户对资源及时进行调整,保证资源承载业务的平稳运行。因此,用户可以在统一界面上完成对数据中心基础设2.6.2超算建设模式走向集约化,需要统一高效的作业管理统,实现让数据贴近计算,让任务找到合适的算2.6.3数据全生命周期管理,夯实高效、全面、智能的数据底座精确的规划IT投资。第二,数据存储系统孤岛严计,支撑多维度资源分析,包括容量、性能、分数据冷热分布、冗余分布、容量分布、类型统计数据密集型超算优秀实践3.1国家超算济南中心:打造中国最大规模数据密集型超算应用标杆“国家超级计算济南中心”建有中国首台全部统,标志着中国成为继美国、日本之后能够采用自3.1.1国超济南中心发展势头迅猛,构建引领全球科技发展的“最强大脑”科技强国政策背景下,我国开始大力发展和推进HPC事业,建立隶属于科技部的国家超级计算中心,用于发展高性能计算相关产业与应用。截至2021年,科技部批准建立了国家超算济南中心、国家超算天津中心、国家超算深圳中心等八所国家超目前,国超济南中心正在主导山东省“超算互联网工程”,研制建设算力领先的多元算力集群,通过根植山东、覆盖全国、辐射全球的超算互联网建设,构建“E级超算、人工智能、大数据、工业互联网”等大科学装置集群,形成国际一流的“超算大脑”,力争成为推动国家基础科学进步和重大技术攻关,并实现自主可控的超算中心,助力山东人工智能、大数据等新型应用进入到超算科研领域,推动济南超算改革创新发展,由单一计算服务向计算加多元数据处理服务变化。面临变化和挑挑战一:数据量的激增,带来传输与存储成本的挑战。国超济南中心规划存储可用空间为原始数据不仅多且杂;二是数据多环节处理计算,带来数据的过度膨胀。伴随人工智能及大数据等新兴产业的爆炸式增长,超算需要处理更多数据,既有结构化数据又有非结构化数据,而在线传输这些耗费数月,这些都是超算中心在转型过程中无法规挑战二:存储资源抢占导致整体计算效率不任务并发造成存储资源抢占,则会导致整体计算效率被拉低。例如生命科学作业等大带宽类作业增多时,传统存储会因资源抢占,计算效率降低50%,CPU利用率不足30%,从而影响整个超算中心的作业务融合过程中,也面临着数据管理及数据孤岛的挑战。在提供如人工计算、大数据、虚拟化和灾备象存储、大数据的HDFS存储等),都会增加管理3.1.3国超济南中心采用统一存储底座,打造标杆级新型超算中心应用生态山河HPC山河云人工智能易算云并行云更多…覆盖领域气候气象材料科学工业仿真生物医院大科学装置更多…VASPWRFLammpsOpenFOAMANSY容灾备份负载均衡数据隔离鉴权认证监控报警微服务集群管理作业调度数学计算库MPI通信库编译环境操作系统驱动机器峰值性能60Pflops总存储容量200PB网络带宽1TB/s人工智能计算峰值性能1000Pops山河超级计算平台神威蓝光神威E级原型机求,提升业务效率,加速业务创新;整体带宽超数据密集型超算发展白皮书2023国超济南中心定制开发,基于数据流动任务和策略,实现数据流动的服务化和可视化,基于用户数据属性标签化进行定制开发,实现数据流动的安全管理,集超级计算、大数据、人工智能于一体的统一开放超算互联平台。可支持济南、青岛、淄博等跨域超算中心的统一资源调度、统一数据管理、统一用户管理、统一入口、统一监控、统一运维、统一运营,解决数据孤岛、海量数据互通难、数据全生命周期安全管理难的痛点。001.data数据共享流动总线900.dataHDFS生产青岛2022-01-1_无论是国家政策导向还是超算中心降本增效的考量,绿色节能已逐步落地到生产和经营的方方面面。在数据中心层面,采用高密存储资源池是理想的解决方案,可以极大缩减数据中心空间和能耗的开支,由此带来的高资源利用率和高成本效益是驱动高密全闪存储系统的重要因素。国超济南中心选择高密全闪统一存储底座,具备敏捷性、高效率、可用性、安全性、面向云业务的适配性的特点,基于业界领先的技术和架构,与我国全面推动的“新基建”战略高度契合。同时,高密全闪统一存储底座高密度、低功耗的特点可以显著降低超算中心PUE,降低运营成本20%,助力济南超算成为全球超算中心的领跑者。上海交通大学拥有全国高校最大规模的超算集群,包括国内高校最大的高性能计算平台思源一号、国内高校前列的计算平台π2.0、搭载了国产ARM芯片的Kunpeng超算平台、云计算平台jCloud2.0,以及人工智能计算平台。在超算科研能力的加持下,学校在量子计算与量子通信、生物医学工程、新能源与环境保护、人工智能与机器3.2.13.2.1Al时代,学校高性能计算中心面临新场景海量数据挑战1、数据爆发式增长,容量需求高有八项场景的数据量都在PB级别,分别是气象海2、Al等新业务涌现,对性能要求愈来愈高级小文件训练集的读取时间为60s,需求单节点性能300万IOPS;3TB参数CheckPoint在60s内写3、传统AI本地盘训练,伴随高并发数据分析,要打破IO墙本地盘->CPU内存->GPU显存;checkpoint涉显存显存容量型存储预处理内存本地盘4、跨校区多集群存储共用需求(用户体上海交通大学现有6个校区,分别为:徐汇校区、闵行校区、黄浦校区、长宁校区、七宝校区、浦东校区,总占地面积300余万平方米,各校区同市但相距较远。各校区共有5套存储集群,用户业务的集群选择是个问题,异地校区数据访问存在数据丢失、作业启动失败、运行慢等问题,影响使用5、校超实践发现问题:传统超算方案重计算,轻存储,存算比不合理在多年的教育科研实践中,管理着全国高校最大规模超算的上海交大信息中心发现:传统超算重视算力的需求,但忽视存储系统的建设。同时,经典的超算系统评测方案也以算力为主,以此为指导设计出的集群不能满足Al模型训练、生物医学等新型数据应用场景的需求,会出现集群跑分高,实际应用差,存算比低,数据存储和读写成瓶颈等问3.2.2“一存力,多算力”的统一存力基座方案面对时代的趋势和新技术的挑战,为满足全院教师学生教育科研、学习生活的需求,学校在超算“一存力,多算力”以实践为基础,上海交大提出了“一存力,多算力”的发展战略。2019年建设45PB存力,2023年又扩容25PB,形成总容量70PB的统一存力基座,支撑上海交大5个高性能计算平台的数据存储需要。统一的存储基座支撑了全校900+课题组、2000+校内用户的数据需求,有效应对海量数据时代的存储压力,形成了一套高校信息化建设的思源一号提升带宽与IOPS性能业务高效,每节点80的数据存储需求。万IOPS,带宽20GB/s,有效支持Al等新业3数据密集型超算优秀实践务场景需求。●协议互通:无需协议转换,天然支持对象、文件、大数据等多协议互通。●自主可控:全套自主可控,从根源解决安全问题,有效只是学校国产化软件开发、适配、性能调优等课题研究。●跨校区用户与算力间互联:基座方案中,六个校区算力可以统一访问位于闵行校区的存储中心,并通过GFS全局命名空间,实现跨域数据访问,真正做到算力跟着数据走。3.2.3存力基座助力教育科研发展(一)高性能计算中心提供学科融合服务,上海交大高性能计算平台创立“交我算”品牌,在国内高校率先实践数据密集型超算理念,面向全校提供融合数据计算服务,通过优化计算流程、缩短计算时间,有效助力各课题研究组实现科研成果突破,主要成果如下图所示:典型案例:世界最大规模N体模拟典型案例:流行病学归因算法优化·加速瑞金医院陈竺、陈赛娟院士团队白血病早期诊断流程7X·加速机动孟祥慧教授团队动态活塞环缸套摩擦学模拟160X·加速材料学院张澜庭教授材料基因组模拟
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 暑假托班合同范本
- 房屋预售房合同范本
- 学校厨房厨师合同范本
- 大学晚会合同范本
- 商铺租赁水电合同范本
- 如何用EXCEL建立报价表2
- 统编版二年级下册语文《祖先的摇篮》【新课标版】课件完整版
- 简单砌墙合同范本
- 2025合同协议未经合同公司盖章是否有效
- 《2025委托生产合同》
- DB21-T 3413-2021地下工程自防护混凝土结构耐久性技术规程
- 学校食品安全管理
- 痉挛性斜颈的物理治疗与按摩技术
- 团队沟通与协作培训
- 美的社会责任报告2023
- 2021年4月自考00908网络营销与策划试题及答案含评分参考
- 2019外研社王嫣演讲稿
- 设备安装调试记录表
- 机械设计说明书-多功能自动跑步机机械部分设计
- 临床路径工作总结医院临床路径管理工作总结
- 2022-2023学年上海市徐汇区世界外国语中学八年级(下)期中物理试卷
评论
0/150
提交评论