东数西算数据中心基础架构设计方案白皮书_第1页
东数西算数据中心基础架构设计方案白皮书_第2页
东数西算数据中心基础架构设计方案白皮书_第3页
东数西算数据中心基础架构设计方案白皮书_第4页
东数西算数据中心基础架构设计方案白皮书_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录一、 东数西算的背景 3(一) 政策背景 3核心战略 3东数西算和国家热战关系解读 4一张图解读政策之的系 7典型枢纽和节点布局 7(二) 投资背景 9政府投资 9民间投资 10(三) 业务背景 11东数西算业务需求 11业务承载能力需求 13业务上线效率的需求 13能效水平需求 15(四) 技术背景 16云边协同发展趋势 16算力芯片发展趋势 16存储介质发展趋势 18节能减排技术发展势 19二、 从0到1基础设施建式 21(一) 基于微模块建设方式 21数据中心建设 21简易算力部署 22边缘计算节点 22(二) 基于整机柜交付方式 231. 厂内预制、快速交付 23(三) 基于液冷建设交付式 24数据中心液冷技术 24冷板式液冷 25浸没式液冷 26三、 算力部署及数据处模式 27(一) 计算 27Il架构典型服务器 28D架构典型服务器 29(二) 30U典型服务器 30C典型服务器 32A典型服务器 33(三) 存储 33海量存储服务器 34紧凑型存储服务器 35全闪存储服务器 35四、 集群管理及应用模式 36五、 系统运行维护模式 39六、 结论 40七、 关于超云 41八、 参考献用注 42一、东数西算的背景() 政策背景核心战略双碳2020年9月22日中国在第75届联合国大会上正式提出2030年现碳达峰2060年实现碳中和的目标2030年之前二氧化碳排放量不再增达到峰值后再缓慢减少。到2060年,所有的二氧化碳排放将通过植树、节能排来抵消数字经济2022年1月12日国务院正式印“十四五数经济发展规划》,明确了“十四五”时期推动数字经济健康发展的指导思想、基本原发展目标、重点任务和保障措施。东数西算2022年2月17日国家发展改革委中央网信办工业和信息化部、国家能源局近日联合印发文件,同意在京津冀、长三角、粤港澳大湾成渝内蒙古贵州甘肃宁夏启动建设国家算力枢纽节点并规划了张家口集群等10个国家数据中心集群。至此,全国一体化大数据中心体系完成总体布局设计,“东数西算”工程正式全面启动。统一大市场2022年3月25日中共中央国务院出台关于加快建设全国一大市场的意坚持创新驱动发展推动高质量发展坚持以供给侧结构性革为主,加快建设高效规范、公平竞争、充分开放的全国统一大市场。东数西算和国家热点战略关系解读什么是东数西算东西算“数是指数“算指算即数据的处理能力是数字时代的核心生产力“东西算通过在中西部建设包含数中心云计算大数据等一体化的新型算力网络体系将东部海量的数据有序导至西部进行计算促进东西部协同联动效率优化“东数西算工程是我“南水北调“西电东送“西气东输等工程之后面向全国资源分布经济发展实际,进行的全局统筹、协同优化的又一个历史性大工程。东数西算与数字经济的关系东数西算是数字经济发展的坚实底座当前我国数字经济蓬勃发展各行业数字化转型升级进度逐步加快全社会数据总爆发式增长数据资源存储计算和应用需求大幅提升但我国数据中心发展式仍显粗放东西布局失衡算力配置分散数据流通遇阻等问题凸显在一程度上掣肘数字经济发展速度习近平重要文《不断做强做优做大我国数字济中指出要加强键核心技术攻关规范数字经济发展完善数字经济治体系加快新型基础设施建设推动数字经济实体经济融合发展这五大领域展数字经济,各领域相辅相成,协同发展。例如通过高质量建设新型基础设施,不断加强ICT核心技术攻关通过东部数据经济发展带动西部实体经济发展和数字经济建设通过打通优化东西数据网络扩大数字发展格局不断完善全国数据理体系“东数西算工程的问世着眼于数字经济建设多个核心领域通过科学理的顶层设计引导东部数据中心集约化发展西部数据中心跨越式发展统调度东西部数据中心算力需求与供给实现全国算力网络数据能源等协联动,为我国数字产业化和产业数字化发展打好坚实底座(注1)东数西算与双碳战略的关系东数西算是双碳战略的重要抓手气变化人类面临的全球性问题随着各国二氧化碳排放温室气体猛增对生命系统成威胁与此同时我国社会也进入了新的发展阶段无论是来自世界外部的发展势还是自身发展的需求使得中国的经济发展从追求速度与效率的方式转向生文明建设走绿色低碳可持续的道路在这样的时代背景下我国对双碳目标承诺标志着中国对促进经济高质量发展社会繁荣和全球生态环境保护的决(注2)数据中心耗电量逐年升高,据国家能源局数据显示,2020年我国数据中心耗电量已逾2000亿瓦时约占全社会用电量2%电能利用(PUE高达1.49;二氧化碳排放量约1.35亿吨,约占全国二氧化碳排放量的1.14%。结合数据中心规模增长趋势可以判定数据中心将成为未来为数不多能源消耗占社会总用电量和碳排放量比例持续增长的行业给全社会能源供应和环保带来了巨大压力“东数西算工程聚焦创新节能在集约化规模化绿色化方面着重发力,支持高效供配电技术制冷技术节能协同技术研发和应用鼓励自发自用微网直供本地储能等手段提高可再生能源使用率降低数据中心电能利用引导其向清洁低碳循环利用方向发展已经成为数据中心与绿色低碳产业深度融合,建设绿色制造体系和服务体系的重要抓手工程,助力我国在2060年前实现碳中和目标东数西算与统一大市场的关系东数西算构建东西重要数据走廊打通市场堵点我国目前处于二个百年奋斗目标新发展阶段同时世界正处于百年未之大变局和疫情常态化局势叠加面对国际复杂局势稳经济首先要稳内需快建设全国统一大市场出台其工作原则指出立足内需畅通循环立破并举完善制,对我国市场格局有以下作用:强化我国国内市场基本盘促进我国国内大循环以及国际国内双循环影响全球要素资源向我国聚拢随着数字技术全方位融入经济生活数字经济成为驱动我国经济社会发展新引擎,商贸流通的数字化建设则是必然趋势。现代商贸的流通是物流+数流通借助东数西算工程构建的数据走廊可以助力西部地区加快数字基建通商贸流通堵点打破区域界限和市场分割降低产销对接城乡联通内接等交易成本有效解决各区域各行业信息不对称不透明等问题提高效率、提升服务质量、扩大市场利润(注3)一张图解读政策之间的关系图1:全国资源分布与输送示意图典型枢纽和节点布局东数西算布局如下图所示京津冀枢纽长角枢纽粤港澳枢纽成渝枢纽、内蒙古枢纽、贵州枢纽、甘肃枢纽、宁夏枢纽为8大国家枢纽节点,此外国家还规划了10个国家数据中心集群,包括张家口集群、芜湖集群、长三角生态绿色一体化发展示范区集群、韶关集群、天府集群、重庆集群、林格尔集贵安集群、庆阳集群和中卫集群,以此构建全国新型算力网络体系。图2:全国一体化算力网络国家枢纽节点布局图八大节点“东数西算工程中所发挥的作用各不相同贵州内古甘肃宁夏这个节点要打造面向全国的非实时性算力保障基地定位于不断提升算力服务品质和利用效率充分发挥其资源优势夯实网络等基础保障积极承接全国范围的后台加工离线分析存储备等非实时算力需求京津冀长三角粤港澳大湾区成渝四个节点要服务于重大区域发展战略实施需要定位于进一步统筹好城市内部和周边区域的数据中心布局实现大规模算力部署与土地用能水电等资源协调可持续优化数据中心供给结构扩展算力增长空间(注4)() 投资背景“东数西算”是掀起数据中心产业链投资热潮的新动能。数据中心的产业链条较长、覆盖门类较广,包括土建工程、信息通信基础软件、IT设备制造和绿色能源供给等。虽然数据中心的预期收益较高,但前期建设需要大量的资金。在政策引导和行业需求的驱动下,“东数西算”工程实施落地,可以吸引大量投资,继而为数据中心产业链建设提供必备的资金。根据国家发改委预测,“东数西算”数据中心的建设将吸引超过4000亿元的社会投资。“东数西算”工预计未来5年或将带动每年千亿元的投资,对相关产业拉动作用突出。据0全球计算力指数评估报告》显示:计算指平每高1个分,数字和GDP将别长3.%和1.%可见,绕东西”入的金人才、术将我数经济展入源断新动政府投资地方政府根据招商引资政策,对兴建数据中心、产业园区等项目给予政策奖励,或直接参与或间接参与进行投资。其中政企合作是政府投资的普遍选政企合作是指企业与选址地政府合作通常可享有一定优惠扶持政府能够分担投资风险降低融资难度也能够协调多方利益主体的一致合作形成社会效益最大化同时政府部门通常会在土地、电力、能耗方面给予合作的第三方数据中运营商一定倾斜和优惠第三方数据中心运营商则主要负责数据中心的投资设和运维促进当地政府部门企业数据上云并需要在招商引资纳税增就业人才引进方面为当地做出贡献拉动当地数字产业和数字经济发展形双赢局面民间投资民间投资往往以第三方数据中心为主要投资方式,第三方数据中心运营占据我国数据中心市场半壁江山且份额每年都有所上升源于早期数据中心设资源和网络资源积累的优势当前我国数据中心市场格局仍由三大基础电信营商主导众多第三方数据中心运营商加速追赶共同构成我国数据中心主体局从2020年数据中心业务市场收入占比来看基础电信运营商约占总市场规模的54.3%,其中中国电信市场规模约占23.8%、中国联通约占16.7%、中国移动约占13.8%第三方数据中心运营商市场规模占比为45.7%对比2019年40.7,市场收入占比有明显提升(注5)图3::基础电信运营商及第三方数据中心运营商数据中心业务收入分布() 业务背景东数西算业务需求离线数据处理场景业中有非常多需要离线分析的数据例如软件系中的日志分析每日每月报表分析用户图片视频算法分析等用大数据件进行离线数据分析这些数据和分析产生的结果对时效性要求并不是很高此西部价格便宜的算力优势足以低过数据传输带来的成本。AI训练视频渲染超算场景AI平台提供训练往往需要专门的算力设备同时可以基于线下数据进行线下训练因此用户可选择在西部数据中心中运行力密集度高的AI模型训练任务训练出的模型再同步至东部数据中心的镜像Hub中并用于推理服务视频渲染也是类似特性的算力密集型任务将需要渲染的数据存储至西部数据中心充分利用计算资源充足和价格优势完成视频渲染后将最终视频推流至用户端同时东部地区还可采用边缘计算节点来缓存加速视频文件和相关数据,实现就近访问。同样对于科研计算中的流体力学、物理化生物信息等高性能超算场景,也适合在西部地区数据中心中进行计算。物理托管和混合云场景。在企业上云过程中并不是把所有业务和数据全迁移至云平台,因为企业IT历史原因和客观条件约束,有一部分服务器必须用物理部署的形式这样企业就可选择在企业本地物理服务器集群和公有云间构建混合架构也可以选择将物理服务器集群托管至云平台随着网络时延逐步改善以及西部数据中心的建设和配套服务的完善让需要有服务器托管中西部用户,甚至一些东部客户有了更多选择。数据归档场景如目火爆的直播带货行业每天会产生大量的视频数据根据直播带货视频合规要求相关视频要至少保存三年医院医疗影像医疗诊断记录也要根据合规要求进行长时间保存。存储这些数据一方面对容量需求巨另外一方有很少的读取需求越便宜越好这些就是我们说的冷数据因此将冷数据存储至西部数据中心中的廉价存储介质中比如说大容量的机械硬盘甚至是带库,是非常好的选择。两地三中心灾备场景政府和大型企业构建大型数据中心根据政策法规求都会考虑灾备场景随着两地三中心模式的普及异地灾备成为政府和大企业的广泛要求以前中西部地区因为东部数据中心配套的网络建设运维服务方案成熟度相对更高往往会把灾备中心建设在东部这就面临着越来越有限的扩展空间和昂贵的成本。随着西部数据中心的不断成熟,中西部甚至东部客可以根据自身地理位置情况将主副中心或者灾备中心建立在离自身距离较为合适的西部地(注6)业务承载能力需求依据地域不同东数西算数据中心业务承载也呈现不同特点需要截然不同的硬件基础架构支撑对于占据数据量80%的温冷数据而言规模化的应用要海量的数据处理与存储需求此时集聚性的数据中心能够显著降低数据中心设和使用成本数据中心内部大多数业务对于网络实时性要求不高却需要更的异构算力融合及云网融合来加强数据流通与数据处理能力部分业务如人智能训练,超算中心等,更是需要发挥集群的算力优势,组建并行集群。数据利用率极高的业务,则是对于网络实时性提出了更高的要求,需要本地化数据中心或边缘环境下部署作为数据中心云在用户侧的延伸和触角足更广连接更低时延更优控制的需求数据中心需要在边缘端提供更密集网络算力,更灵活的部署方式。业务上线效率的需求随“东数西算工程和企业数字化转型进程的不断推进数字技术逐渐渗透到各行业业务的方方面面当下在数字的过程中越来越追求业务部署速度这就对作为产业数字化底座的数据中心提出了更高的要求通常会尽可的要求生产力逐步提升生产效率不断提高从而迅速扩大企业的业务范围和响力相反数据中的运营成本建设周期要尽量降低和缩短因此数据心的建设和交付成为提升业务上线效率的关键环节之一。数据中心采用传“建设模式会是一项复杂的系统工程涉及数据中心选址建筑方案设计火水电等基础设施建设IT设备部署调试维管理队伍建设等一系列工作不仅在建设期需要投入大量的人力物力和财力而且在建成后还要持续投入大量的运营管理资金和人员传统的建设模式建成后数据中心可扩展性差基于对未来业务需求的分析规划系统容量却无力预见3至4年以后的情形因此造成了建设不足或过度建设从而影响用户及IDC服务商双方的业务发展这种规划方式需要将设备部署与建设设计的功能区域划分做强耦合方案设计复杂施工过程难度大周期长不具备良好的扩容能力显然这种工程建设方式已经不适应数据中心响应数字时代转型生产能力飞速提升的需要。需要将数据中心的设备层与建筑层做分离,将建筑设计简化为标准空而设备层不依赖于建筑物区域和空间的划分自成标准结合优势技术不断迭代升级的同时,又能满足任何时期增量部署的要求。数据中心的“交付模式”主要实现的是在基础设施设备和IT设备层面进行耦合,做到去工程化、全面预制化的水平;可以理解为将建设现场的安装部调试等工作交由工厂预先完成将各“先施后集成的建设式升级“先验证后生产的先一体化交付模式“付模式可以不受场地条件的限制,类似于虚拟化技术可以突破硬件设备限制将灵活快速提升生产力作为首要目标,不断地进行技术迭代,缩短数据中心基础设施设备和IT设备的实施周期,从而实现快速交付的能力。完美匹配数据中心响应企业“数字化转型”的要能效水平需求根据东西部枢纽节点地理位置功能定位不同的特点“东数算工程注重高算快存的同时也对东西部枢纽节点分别提出不同能效水平要求。根据“东数西算的文件要求对自然环境优越可再生资源充足的西部枢纽要求数据中心能耗水平PUE达到1.2以下,对东部枢纽地区数据中心能耗水平PUE求达到1.25以下。东数西算工程将东部算力有序引导至西部,但例如工业互联网、视频编自动驾驶等仍需东部边缘算力支撑增大算力能效水平对于东西部业务部署都至关重要扩数据处理量加快计算速率响其主要因素一是设备二是电力,因此提高数据中心建设密度成为提高算力水平的重要举措这就需要在节能的前提下提高单柜功率密度。要达到当前所要求的能效水平则不能仅依赖于传统数据中心建设模式要在集约化、规模化、绿色化方面着重发力。() 技术背景云边协同发展趋势在东数西算大背景下5G物联网等技术飞速发展企业数字化转型进程快高带宽低延时数据安全的要求越发强烈带动边缘计算需求激增云协同成为未来技术重要演进方向驱动数据处理向边缘扩散云边端一体化算形态将更好地满足各行各业创新需求。算力芯片发展趋势CPU作为数据中心算力的基石,目前呈现出一超多强的市场格局,x86架市场Intel牢牢占据霸主地位AMD作为后起新秀2021年最新市场份额超过ARM架构也呈现了群雄割据之势尤其在信创趋势下各个芯片厂商围绕着芯制程、核心主频、TDP及封装方式不断进行更新迭代。制程工艺与核心数量以Intel为例,至强IceLakeCPU已升级至单颗最多支持40个物理核心;在2021年7月Intel公布的芯片制程工艺路线图显示,新一代可扩展处理器将采用更先进的制程,单颗核心数预计将达到以上,AMD与ARM从技术路线来说,制程工艺更加先进,核数更多。模块化与Chiplet设计CPU作为精密的半导体部件为提高良品率厂商通常将一个CPU拆分成多个较小的晶片(Die)分别生产、再进行互联、封装以AMD服务器CPU为例一代EPYC最多能提供32核心最大的变化是采用了芯片模块架构MCU),包括了四个对等的Die组成,单Die最多提供8个物理核心及Cache,在二代和三代EPYC则对多de互联架构持续优化,形成了8CCD围绕一个IOD的Chiplet设计(如下图)。图4:模块化与Chiplet设计示意图CPU功耗逐步接近风冷极限。目前最新在的Intel和AMD处器TDP颗最高分别为270W和280W下一代CPU预计将逼近400W对于传统的风冷散热带来严峻挑战,促进液冷技术的创新和落地。AI算力。在算力多化的新型数据中心建设中,AI算力与通用算力同样要AI芯片算力将承担更多的算力任务,向着更高算力、更先进制程、更多核心、更安全和更智能的方向发展。以NVIDIA最新发布的Hopper架构的H100例,单张GPU的晶管数量达到了恐怖的800亿个,制程工艺也提升至台积4n,18432个CUDA核心,支持PCI-E5.0、NVLink第四代,后者带宽提升900GB/七倍于PCI-E5.0相比于A100在智能化和安全性方面也对MIG技进行了升级,支持机密计算和全新的DPX指令。网络算力在计算模复杂化算力要求提升的趋势下GPU的出现减轻CPU的计算负担而算力要求提升的背景下是数据量数据类型的增多为了一步提升计算系统的数据处理与调度能力,DPU应运而生。主要处理网络IO减轻CPU对数据处理的负载释放更多的CPU算力将数据集中处理和调度仅能够缩短数据经过的路径减轻CPU负担还将以计算中心的网络数据处理变为以数据为中心,提高了整体数据中心的数据处理效能。存储介质发展趋势东数西算对海量数据的需求和运用更广泛来自中商产业研究院发布的数据显示,中国83.7%的数据集中在“胡焕庸线”以东,为此需要通过“东数西算工程来改善数字基建不平衡的布局对海量数据进行合理优化的调度存储与处理,发挥数据资产对行业数字化的更大价值。HDD的发展趋势:在体数据类型中,温冷数据的占比依旧是最大的,HDD机械盘凭借单T成本优势仍然是温冷数据存储的首选,随着数据爆炸式的增加如何突破HDD容量增长瓶颈及实现容量与性能的均衡提升是目前机械介质技发展所面临的核心挑战。容量提升:通过热辅助磁记录相关技术实现了单盘20T+的容量突破;性能提升:通过双驱动臂技术(以希捷Mach.2为例)实现了在容量不变的情况下性能加倍;TCO降低:通过氦气填充、SMR技术大幅提高单盘容量的同时降低总体TCO;SSD的发展趋势SSD的NAN“楼层越来越高目前主流的企业级均采用了最新的3DNAND技术,64-176层芯片成为主流产品。2022年上半三星宣布推出176层NAND预计最快在2022年底发布200层及以上堆叠技的NAND芯片,单T的SSD成本也逐步降低。节能减排技术发展趋势东数西算将从源头上推动数据中心持续提高能效碳效水平强化全生命期的节能管在全国各地对节能审查政策扶持等方面做出明确规定政策制高PUE值IDC入场。供电技术。发展清洁能源为数据中心供电:直接部署清洁能源采用太阳能风能水能等清洁能源发电为数据中心供电储能技术包含储热储氢储多种方式由于不同技术适用的场景不(包括能量和功率其中电技术应用最为广泛又可分为物理储电和化学储电储能技术的发展与利用弥补了太能、风能等间歇能源的不足。数据中心UPS使用高频机替换工频机对于频机发电机的容量至少要3倍于UPS功率;对于高频机,输入功率因数可做到0.99或以上,谐波电流小于5,前置发电机的容量理论上和UPS功率相同,大大缩减了投资和占地面积等高压直(HVDC代替UPS相较于UPSHVD在备份工作原理扩容以及蓄电池挂靠等方面存在显著的技术优势,因而具有运行效率高、占地面积投资成本和运营成本低的特点。降压和整流合二为一随着数据中心建设规模的变大电力容量需求也越越大需要提高供电的电压等级来满足容量需求这时我们需要通过降压变压将中高压电降压到AC380V,再由HVDC为服务器等供电。降压过程也存在量损失,将降压与整流合二为一来有效降低能量损耗。负载端升压降损随芯片集成度增加服务器整机功率密度逐步呈现上升趋势,末端柜机、板载电源也需要提高DC-DC供电的电压等级来满足容量需求并减少中间降压环节,避免损耗。数据中心散热技术前主流的散热技术包括自然冷源散热间接蒸发冷和液冷技术相较于前两者液冷散热技术不受自然条件和地理位置限制可达到更低PUE、降低IDC噪音,在高功率密度情况下散热效果更优。二、从0到1基础设施建设模式() 基于微模块建设方式数据中心建设东数西算政策出台时,已经考虑到布局的重要性,我国西部自然条件良清洁能源丰富可以解决新建算力中心耗电量大节能减碳要求高的问题非常适合新建大型或者超大型的算力中心。前面已经提到算力中心在建设时交付效率能效水平等硬性要求而模块的方式建算力中心是最适合的解决方案采用池级微模块和集装箱微模块解方案算力中可以分割成多个算力模块或者算力节点整体算力按照节点或块逐步增加可以从单个模块到几十个微模块根据需求分期建设分期部署举可大幅提算力中心的扩展性,可使任何大小的IT空间的配置都达到最佳态与此同时微模块算力中心方案还可显著降低数据中心在使用寿命期间的本相较传统建设方式工厂预制化的算力微模块建设周期更短在规划及设初可根据设计目标以合理的方式配置系统结构每个模块可以批量生产货供应标准化的连接方式可减少现场配置与连接的工作量加快安装速度现有案例来看模块化算力中心可大幅缩短建设周期建设周期可缩短至2至个月另外,预制化、模块化算力中心采用标准化高度整合式设计,系统稳定适配性高从根源上就降低了运维难度同时模块化算力中心还可根据不同用户对数据中心等级需求,可灵活弹性的配置N、N+1、2N等配电方案。值得注意的是随着智能化水平的提升模块化算力中心层面也逐步智能化从供配电机柜制冷综合布线等多方面出发实现智能化可以做“早预防,早发”,进一步降低了运维难度,提升了算力中心稳定性。简易算力部署简易算力需求灵活部署规模可大可小除了场地条件规模较小之外环境条件也无法达到西部新建大型算力中心等级标准,池级微模块应用会受到电散热等条件的制约但算力密度和制冷需求并未降低排级微模块在保留池级微模块高扩展性预制化标准化智能化的础上设计了封闭式的排级机柜系统封闭机柜具备智能超温自动开门保护功能行间空调全正面送风结合机柜排通道封闭措冷量集中供冷到发热负载保证了服务器机柜不同高度进风温度的均衡性,避免了局部热点,延长算力设备的使用寿命,有效解决能效问PUE数值进一步降低,同时封闭式机柜设计可以有效的隔绝噪音。边缘计算节点边缘计算条件极不确定存在各种各样可能对柜内设备损坏的可能性这微型节点需要重点考虑减少部署环境依赖运行可靠性免维护性性价比等面,结合IT设备数量少的情况,仅需要一个单独的封闭柜体即可满足要求,也需单柜空间内具备配电、UPS、制冷、监控等基本组成,必要时需要做到良升级,以适应高低温、盐雾高湿、沙尘风雪等恶劣环境。() 基于整机柜交付方式1.厂内预制、快速交付不同等级微模块在建设时可以满足各种规模和场景的数据中心快速投入使用但距离业上线可用还需要基于算力中心基础设施进行计算存储络、集群调度和管控等多种IT设备进行适配。如果能利用算力中心建设阶段同在厂内进行算力设备预先集成和验证并与数据中心基础设施设备进行兼容性互适,那么将减少数倍现场交付环节的时间。整机柜服务器是按照模块化设计思路打造的服务器解决方案系统架构由柜网络供电服务器节点集中散热集中管理6个子系统组成是对数中心服务器设计技术的一次根本性变革整机柜服务器将供电单元散热单元化,通过节约空间来提高部署密度,其部署密度通常可以翻倍。集中供电和散热的设计最低配置传统机柜式服务器10%的电源数量就可足供电需要,电源效率可以提升10%以上,且单台服务器的能耗可降低5%。传统服务器交付效率低采用整机柜服务器将原来在数据中心现场进行的务器拆包上架布线等工作转移到工厂完成部署的颗粒度从1台上升到几台,交付效率大大提升。() 基于液冷建设交付方式数据中心液冷技术液冷技术凭借其有效降低能耗减少故障率突破环境局限性静音和易回收等优势成为绿色数据中心建设的技术趋势之一以预制化模块化为设计念的低碳高效高静音高可靠及智运维液冷方案可以实现更高可性更低TCO,助力东数西算高质量低碳数据中心建设发展。液冷技术将数据中心室内和室外分别称为一次侧和二次侧其中在一次侧部分相较于传统风冷模式取消冷水机组部分大幅提升了整体系统能效二次侧按照冷却液是否与设备直接接触主要分为两种架构模式一为间接的冷板式液冷通过冷板内的冷却液为高功率发热元件提供散热二为直接式的浸没式液冷直接通过冷却液与IT设备直接接触进行散热。其中二次侧根据冷却液带走热量时是否发生液态到气态的变化分为单相和相变两种形式相变形式在换热效率上更佳,但相变形式不具备易用性,会增加系统控制和运维方面难度。超云在单相冷板式液冷和浸没式液冷方面有着深入研究在二次侧方面充分发挥超云液冷IT设备算力能效,形成以基础设施与IT设备效融合的体产品解决方案。冷板式液冷冷板式液冷采用温水制冷技术进液温度范围一般在35-55℃可满足高功耗IT设备散热,通常采用板式液冷带走高功耗元件热量,包括CPU、GPU、VRDIMM等部件,可占整机散热需求的40-65%,其它部件仍采用风冷将热量带走,因此冷板式液冷又被称为气液双通道式冷却模式。冷板式液冷在部署形态上与现有风冷架构接近在传统风冷基础上增加液部分系统,主要包括液体冷却分配装置(CDU),可采用柜式和机架式、机柜设有分歧manifold服务器端增加水板和与分歧管对插快接部分相于风冷在对插快接部分服务器与基础设施部分有一定程度的耦合因此采用整交付或集成交付均可板式液冷相比于传统风冷架构在以下五大方面都有着飞式提升一带来性能提升高效散热稳定元件运行状态二是带来密度提升成本节约有效解决散热瓶颈提高整体部署密度降低占地成本三是减少备因热失效带来的故障率四是改善机房噪声降低风冷比例优化了风扇选及调速策五是节能和降低总拥有成本从电力使用成本来看以中型数据心为例年均PUE能够达到1.1相较于国家东数西算要求机房年均PUE1.25节省约12%用电费用若按2000个标准机柜折合0.5元/度电费亦可节省近余万费用目前冷板式液冷配套产业链日渐完善随着冷板式液冷需求量的上升相配套成本也呈现降低的趋势超云板式液冷服务器以计算型四子星和适应各种用场景的通用型X86服务器为主打同时可支持全系风冷产品定制化液冷散改造服务基于板式液冷服务器节点推出液冷整机柜服务器产品以柜为单位采用集中供电集中散热与集中管理模式实时动态匹配整机负载率保持能利用率最佳状态。浸没式液冷浸没式液冷采用中温绝缘液体进行制冷,将所有电子元件浸泡在冷却液利用冷却液循环将热量全部带走因此相比于空气冷却和冷板式液冷架构浸没式液冷服务器运行环境发生了巨大转变,从空气变为了冷却液。浸没液冷在建设与交付模式上也与风冷和冷板式液冷有所不同基础设施服务器之间存在高度耦合往往采用整柜一体式交付模式将服务器置内类似传统机架倾倒放置的形态因此对应传统IT设备架构也将不完全适用特别是IO和散热模部分的设计,IO需要根据Tank运维操作虑,散热模组需要根据冷却介质特性进行综合考虑对于浸没液冷最大优势特点即大规模署其节能性一般情况下年均PUE能够达到1.05第二是在故障率方面除了解决电子元件热失效问题还有湿度灰尘等环境参数的影响第三是单柜部功率密度能够高达160kW/Rack;第四运行噪声方面做到了完全的去风扇化,有泵驱动声音产生第五对于算力提升提供设备超频运行稳定的散热条件持存储介质运行最佳状态。目前浸没式液冷配套产业仍有待完善对于冷却液与各部件材料兼容性要较在总拥有成本和能效水平上不利于小规模部署超云在北京落成液冷研实验中心重点进行浸没液冷预研通过搭建浸没液冷平台系统优化浸没环下服务器产品架构助力提供客户高可靠高性能低成本绿色全套浸没冷解决方案三、算力部署及数据处理模式()计算计算作为东数西算数据中心的核心部分主要由CPU的绝对性能和业务生决定X86架构目前仍是数据中心计算平台的首选市场主流包括基于IntelAMD两条技术路线,从实际应用来看,Intel业务生态更加优秀,AMD理论性更佳,可根据东数西算数据中心承载业务的不同来区别选择。l架构典型服务器在“东数西算”战略的推进下,国内新一轮的科技与产业变革将持续深数字经济迎来了新的发展阶段“IT基础设施作为数字经济的坚实底座也将迎来新的发展机遇,服务器作为IT基础设施的最核心的产品之一,通过各种方式(云容器边缘等面向各类应用提供算力支撑其中CPU则是服务器核心算力单元Intel凭借领先的产品技术和良好的生态建设在服务器CPU领域占据约80的份额,通过不断完善其Xeon可扩展处理器的架构和性能,从Skylake、CascadLake、IceLake再到即将发布的SapphireRapids,将为“东数西算提供更强大的算力保障。超云作为国内领先的IT基础设施与服务提供商,通过持续不断的研发投和自主创新目前已拥有行业领先品类齐全的Intel服务器产品布局覆盖用计算边缘计算液冷服务器以及定制化产品线满足市场多样化的产品需求并可根据用户的实际业务进行灵活的产品开发定制。超云R5215G12是于第三代英特尔至强可扩展处理器最新推出的一款端双路机架式服务器产品以强劲的计算能力完善的产品生态灵活的配置配满足各行业应用需求适用于高性能计算大数据分析AI及分布式存储等种业务场景优异的AI扩展R5215G12在2U的空间内可以灵活搭配8张单宽推理卡者2张双宽训练卡,并且适配了业界各大品牌的GPU、FPGA及ASIC芯片的主型号,可轻松应对各种AI方案部署。NVMe全闪扩展:支持前置热插拔的28盘全闪Gen4U.2NVMe,所有U.2NVMe均采用CPU直(非PCI-ESwitch方式保证性能无衰减IO无收敛,将PCI-E资源发挥到极致。AD架构典型服务器2017年AMD携第代PYCNaples宣布重新回归企业级市场,打破了x86处理器市场多年的沉寂,并且于2019年推出Zen2架构,是全球首个支持7nm制程工艺单CPU最高支持64C的处理器同时率先支持PCI-E4.0并加安全特性SEV的技术。AMD前两代EPYC处理的成功应用扩大了AMD在服务器市场的影响力在2021年AMDMilan处理器问世后通过全新逻辑设计统一CCD缓存实现8核共享32MB超大L3缓存,IPC升约19%,同时支持6通道内存,向前兼容Rome实现平滑升级大大降低企业升级成本AMD即将问世的Gena专为SP5设计,最高96个物理核心,将支持DDR5内存以及PCIeGen5和Zen4较Zen3预计线程提升15%、且多线程提升35%,助力东数西算业务高速增长超云作为国内最早发布AMD服务器的厂商之一敏锐把握市场趋势与AMD立国内首家AMD联创新实验室。目前已拥有业界最全的AMD务器产品线局包括通用计算密计算边缘计算及液冷服务器满足市场差异化产品求超云R6242A13是基于AMD第三代EPYCMilan处理器打造的超高密四子产拥有行业最高的计算密度2U空间内最高可提供512个物理核心HPL最高可达2000,每个独立节点支持4个热插拔U.2NVMeSSD硬,实现百万IOP采用共享电源系统设计四节点共享2200W钛金级冗余电源有效满足拟化、超融合HPC等对计算密度要求高的场景。() AI近年来人工智能呈现高度发展的状态人工智能通过对数据的挖掘和分析可以充分发挥数据价值释放数字经济能量简而言之人工能已成为推动数字经济发展的新引擎人工智能的快速演进有三个要素支撑算法数据和算力目前通用CPU难以满足呈现指数增长的人工智能算力需求亟需并行度更高的异构算力承载。可以说,东数西算的算力部署离不开丰富的异构算力支目前主流的异构算力有三种分别是GPUFPGAASIC代表着不同的技术路线,适用于不同的业务负载类型。GU典型服务器GPU是人工智能第一大加速芯片类型是目前市场人工智能加速卡主流芯片相较于传统CPU芯片,GPU具备并行计算能力强,算力高的特性。除此之外,NVIDIA基于GPU打了CUDA开发生态提丰富的工具支撑经过发展和完善可支持现有的大部分深度学习算法,为应用开发者提供了优秀的开发平台。GPU服务器是承载GPU算力的平台,可以在单机提供丰富的异构算力支持。得益于架构和工艺的革新GPU卡推理性能每一代相比上代都至少提升一倍性能但单张GPU卡能集成的算力是有限的,远远无法满足业务的迭代对AI算力的需求导致业务需求和算力增长处于供需不匹配的状态为此支撑业务的GPU服务器不再是单机单卡模式而是多机多卡行处理的架构同时一系列为集群优化的专用机架构取代了传统架构。并行集群搭建的主要瓶颈就在于延时GPU服务器采用了多种技术来保障力通信的高带宽和低时延。如NVLink技术,GPU之间可以使用NVLink协议接互联提供远高于系统总线的互联带宽实现信息高速传输服务器之间的GPU也可以使用GPUdirect技术通过远程直接数据读取协议进行直接通信,利的保障集群性能的线性提升。在存储层面,GPU服务器可使用基于PCI-E的高速NVMe缓存的搭载来实现数据到GPU缓存的快速写入。超云R8488A13是针对大规模AI和HPC优化的GPU服务器采用NVSwitcGPU架构支持8张GPU卡600GB/s全互联同时可配备8张200Gb/sInfiniBand网卡及全闪存储实现计算网络存储的衡配比尤为适用于需要大规模数据处理与分析的后台场景。与此同时,R8488A13标配钛金级电源,在4U高度支持5PFLOPS算力的同时实现高效节能。超云R8428G12则是为更广泛AI场景设计的GPU服务器,通过均衡的系设计,可以提供极佳的GPU兼容性,单机支持最高10张双宽GPU卡。在GPU类型方面,既可支持NVIDIATeala系列GPU卡,也提供多款国产GPU卡打包案在AI训练、推理、HPC等多项场景提供灵活算力。ASIC典型服务器ASIC芯片作为专用芯片,针对特定应用和算法进行定制设计,在固定场下性能和功耗远远低于同等算力水平下的GPU更加具备性价比目前已有芯片得到了大规模的商用,如谷歌的DPU芯片,规划算力已达到EB级别通过专用设计突破摩尔定律的限制,达到了单卡性能的新水平。ASIC芯片并非是AI域的通解,具备较大的局限性,如ASIC芯是针专用算法设计初始门槛高开发困难应用范围较窄ASIC服务器作为专用务器产品基于专业集成芯片性能发挥设计单机集成海量低精度算力同时件针对专业应用场景优化,最大幅度节约用户投资。超云ASIC服务器通与ASIC芯片厂家联预研的方式最大程度开发芯片潜力与此同时与应用厂家深化合作提供应用软件打包为用户提供硬一体的解决方案实现开包即用通过这种一体化的方案最大程度上降低户的学习成本和总体拥有成本,丰富用户选择。GA典型服务器FPGA是可编程门阵列芯片,能够实现硬件级编程,具备中等的性能和易用性同时具备极佳的网络能力可实现流式大流量吞吐数据并行处理FPGA在用户端的数据处理方面有着得天独厚的优势具备延迟低灵活度高性价比的特性基于FPGA的服务器相对于GPU服务器,通过定制化算法电路及更强的多令并发处理能力可以灵活适配不同的算法模型具有极强的性能优化空间人工智能边端推理方向,FPGA服务器凭借着自身的低延时性和低功耗性,尤适合数据在边端的实时处理提供更贴近用户侧的AI算力目前基于FPGA的态也已经日趋成熟,FPGA成为人工智能芯片领域新的生力军。超云FPGA服务器R521E12是面向边缘推理端推出的全新一代边缘计算服务器,基于FPGA体积小,算力优化的特性,在边缘服务器上部署2块FPGA卡同时采用可选液冷散热方案,在OTII标准下支持超过250TOPS算力,在边缘端提供训练和推理服务,实现本地快速响应。() 存储实施“东数西算”工程需要构建大批新型数据基础设施算力与数据相辅成承接千行百业的丰富应用多种应用对于数据有着不同的需求存储作为据核心载体在其中也扮演着不可或缺的角色数据根据访问频次分为“冷温”数据针对不同数据类型超云推出三种类型的对应基础设施产品分别为量存储产-冷数据,高密存储产品-温数据,全闪存储产品-热数据。海量存储服务器数据大爆炸时代到来对大容量存储技术提出越来越迫切的需求海量的数据无是当前对存储最大的挑战之一“海量存储的诞生直击大数据和云存储场景其核心原则为容量高成本低易管海量存储并非传统意义上简单的服务器堆积而是要解决现实中呈指数级增长的诸多技术难题和实现超大规模项目的部署,通常需支持百PB级存储规模和支撑万级别数量客户访问。不断增长的数据传统通用服务器已无法满足现有需求超云基于存储平发展战略,推出4U海量存储产品R5410G12,主要面向图片视频处理、流媒分发在线云存储等业务场景满足存储过程中遇到的高性能高扩展易需。在整机配满18T硬盘时单机最高可支持648T的裸容量,通过结合存储理软件平台协同本地存储外部直连存储SAN存储一起使用为搭建异构存环境、海量数据存储系统提供强大助力。超云R5410G12能实现海量存储、配置灵活,通过单机支持超大容量盘满足高速增长的数据存储需求极致性能高效散热充分考存储空间整机散在实“的下的同时保证机器相对长久高效运行智能管控低运维,采用EXP设计实现多硬盘集中式管理,最大限度发挥硬盘集群IO,升用户体验紧凑型存储服务器东数西算背景下对存储基础设施的性能和可扩展性提出了前所未有的挑现有的存储密度远远无法满足客户群体对于存储容量增长以及TCO控制的需求目主要需求集中在如何实现在有限空间的机柜内拥有更高的密度在很长一段时间,存储密度的增长主要依赖于磁盘容量的提升,而传统2U12盘的存储服务器受限于散热、槽位、设计等因素,导致存储密度提升异常困难。超云通过创新结构设计以及极强的差异化特质推出高密存储产品R52242U空间可实现24块热插拔3.5寸大容量硬盘实现了计算存储IO的极致均衡,在存储能力上不弱于通用存储的情况下释放了更多的存储物理占用空,使得空间利用率更高;通过多台高密存储服务器可以轻松组建分布式存储集,有效扩展存储容量和性能得盘率,在保证性能的同时,能够实现80%的得盘率,以达到降低项目整体TCO的目的。全闪存储服务器东数西算要响应“双碳”目标,推动数据中心绿色集约发展,提倡少耗能优化能源使用结构,相对于HDD机械盘阵,全闪存储采用全NVMeSSD设计,相同的容量下性能远远超于机械存储的同时还使得电力能耗最高可降低80%能够大幅降低数据中心TCO有效推进数据中心低碳运转同时为了进一步缩短存储网络的延迟在协议方面NVMe逐渐成为主流在接口方面SSD从传统的SATA/SAS过渡到PCI-E可以进一步释放固态硬盘的性能使硬件直接与CPU进行通信以提高响应速度同时随着PCI-E4.0和PCI-E5.0的传输效率进一步提高,为PC-ESSD提供了非常大的接口带宽,以满足用户为高带宽低延时的需要。面对有数据强一致性要求高IOPS低时延需求场景超云推出全闪存储品R5215G12专为应对科学计算虚拟化大数据等复杂计算环境设计在存技术方面,超云NVMe产品系列兼容U.2、M.2、AIC各类规格SSD,2U空间实现最多28NVMe设计整机提供丰富的PCI-E扩展和灵活可选的网络模块力于为企业用户提供高性能低延迟的IOPS以及更高效的数据分析环境从通全闪磁盘阵列加速用户创造价值、突破创新。四、集群管理及应用模式“东数西算工程的不断推进将进一步助力

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论