《城市级智算中心平台和运营技术要求与评估方法》_第1页
《城市级智算中心平台和运营技术要求与评估方法》_第2页
《城市级智算中心平台和运营技术要求与评估方法》_第3页
《城市级智算中心平台和运营技术要求与评估方法》_第4页
《城市级智算中心平台和运营技术要求与评估方法》_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICSxx.xxx.xx

CCSXXX

团体标准

T/xxxxxx-20xx

城市级智算中心平台和运营技术要求与评估方法

Technicalrequirementsandevaluationmethodsofurbanartificialintelligence

computingcenter

(征求意见稿)

DraftingguidelinesforcommercialgradesstandardofChinese

medicinalmaterials

20xx-xx-xx发布20xx-xx-xx实施

北京电子商会发布

T/CSAExx—20xx

城市级智算中心平台和运营技术要求与评估方法

1范围

本文件规定了智算中心的服务分类、功能架构、智算基础设施、智算基础平台、机器学习平台、大

模型智算平台和运营的技术要求和评估方法。

本文件适用于指导智算中心平台的研发、设计、建设和运营。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T41867-2022信息技术人工智能术语

T/AI118.1—2022人工智能算力中心第1部分:技术要求

3术语和定义

下列术语和定义适用于本文件。

智算中心artificialintelligencecomputingcenter

一种能够为多用户提供人工智能计算服务、数据容纳的结构或结构组。使用信息技术、电信网络设

备提供的数据存储、处理、迁移,人工智能计算加速等功能,并集成能量供应、环境控制和为服务可用

性而制定的必要的可靠性组件。

[来源:T/AI118.1—2022,3.3,有修改]

人工智能集群artificialintelligencecluster

遵循统一控制的,人工智能计算功能单元的集合,可包含人工智能加速处理器、人工智能服务器、

人工智能加速模组等。当由人工智能服务器组成时,人工智能集群可称为人工智能服务器集群,其中的

人工智能服务器可称为节点。

[来源:GB/T41867-2022,3.1.4,有修改]

4缩略语

下列缩略语适用于本文件。

3

T/CSAExx—20xx

API:应用程序编程接口(ApplicationProgrammingInterface)

CPU:中央处理器(CentralProcessingUnit)

GPU:图形处理器(GraphicsProcessingUnit)

IDC:互联网数据中心(InternetDataCenter)

IPMI:智能平台管理接口(IntelligentPlatformManagementInterface)

RDMA:远程直接内存访问(RemoteDirectMemoryAccess)

RoCE:基于融合以太网的RDMA(RDMAoverConvergedEthernet)

5智算中心总体要求

智算中心服务分类

智算中心提供的算力规模(以8*A800算力参考)可分为小算力(1卡-128卡)、中算力(128卡-512

卡)、大算力(大于512卡)。

从智算中心产品功能和算力规模角度,智算中心为用户提供的服务场景可分为简单智算服务、中等

智算服务和大模型智算服务。

a)简单智算服务:为用户提供通用的CPU、GPU等算力,通过API调用通用模型NLP等提供推理服务,

支持针对不同数据规模提供小算力、中算力和大算力的推理服务,适用于图像分类、内容推荐、

生产过程统计等典型场景。

b)中等智算服务:基于通用模型,支持针对不同数据规模提供小算力、中算力和大算力的训练和

推理等算力服务,适用于文本分类、命名实体识别、事件提取、错别字检查、精准排产应用、

生产能耗优化、制造质量分析等典型场景。

1)精准排产应用:制定各个生产环节日生产计划,提供生产精细化管理服务、资源优化平衡

服务、生产异常响应服务等。

2)生产能耗优化:实时采集车间产线的空调运行数据,依据人工智能算法结果,自动控制空

调以及车间其它能耗类设备的运行运程。

3)制造质量分析:包括拧紧大数据失效分析、电池持续低容分析、虚焊预测分析等,采用根

因分析、质量预测等分析组件,实现工艺结果分析和优化建议。

c)大模型智算服务:基于大语言模型(模型参数量在10亿以上),为用户提供通用模型预训练(大

算力)、行业模型预训练(中算力)、场景微调训练(小算力)等,适用于AIGC典型场景。

1)医疗医药文献摘要提取:针对医学部提交的三类药物警戒临床文献,准确识别药物警戒的

五要素(可识别的上报人,可识别的患者,怀疑药物,不良反应,相关性描述),抽取并

总结生成完整的综述报告,人工校准后翻译为对应的英文报告,上报至全球总部。

2)保电大模型服务:支持根据保电场馆赛事/活动任务生成保电任务目标及策略;通过学习

保电工作涉及到的场馆、线路、保障队伍及物资情况,生成保电预案方案;故障发生时,

可通过大模型生成对应故障级别的处置任务,并联动下游任务形成执行工单。

3)政务办事咨询服务:针对政务服务办理提供专业化的对话式办事咨询,提供群众企业的精

准诉求分析、办理流程反馈等服务。

4

T/CSAExx—20xx

4)教育科研传统CV视觉模型训练(中算力)和教育科研场景大模型微调训练(小算力)。

智算中心平台和运营功能架构

智算中心平台和运营功能架构如图1所示,由智算基础设施、智算基础平台、智算服务平台、统一

监控运营运维平台、平台和运营评估方法组成,支撑简单智算场景、中等智算场景和大模型智算场景。

智算基础设施为智算平台提供IDC机房、网络交换机(RDMA网络交换机、通用网络交换机)、算力

服务器(智算算力服务器、通用计算服务器)、存储服务器和安全服务器等基础能力。

智算基础平台基于智算基础设施,为上层平台和应用提供算力、存储、网络、容器、容器镜像、安

全等服务。

智算服务平台包括机器学习平台和大模型智算平台。基于智算基础设施和智算基础平台提供的服

务能力,机器学习平台主要支持简单智算场景和中等智算场景,提供数据预处理、模型训练、模型推理、

模型纳管和模型部署功能;大模型智算平台支持大模型智算场景,利用机器学习平台的数据预处理、模

型部署等能力,提供大模型训练、大模型微调、大模型推理和大模型多模纳管等功能。

统一监控运营运维平台为智算中心提供通用的监控运营运维基础平台能力,以及统一门户、用户控

制台、融合多租户管理、资源管理、运营管理、运维管理、安全部署自动化等能力。

平台和运营评估方法规定支持三类场景的智算中心能力评估的原则和方法。

图1智算中心平台和运营功能架构

智算中心通用要求

a)自主知识产权

1)开发工具和框架的授权:应确保机器学习平台使用的开发工具、框架和库均是合法授

权;

2)算法和模型的知识产权:机器学习算法和模型应具备自主知识产权,或确保已经获得了

适当的许可或授权,以便在平台上使用;

5

T/CSAExx—20xx

3)开源和闭源组件的合规性:机器学习平台使用的开源组件应遵守相应的开源许可协议;

如使用了闭源组件,应确保拥有合法的许可或授权;

4)用户生成内容的合规性:用户上传和共享的内容应避免侵犯他人的知识产权,同时应保

护用户生成内容的合法性。

b)芯片兼容能力

1)架构兼容:机器学习平台和大模型智算平台应支持多种不同芯片架构,以便用户可以选

择适合其应用需求的硬件加速器;

2)平台兼容:机器学习平台和大模型智算平台应确保平台的软件堆栈、驱动程序和库能够

兼容多种芯片,以便用户可以在不同硬件上运行其模型和算法;

3)框架和开发工具兼容:机器学习平台和大模型智算平台应兼容多种深度学习框架(如

TensorFlow、PyTorch、Megatron等)和开发工具,并支持自定义深度学习框架和开发工

具。

c)并发访问能力

1)多用户并发登录:智算中心应支持几十个至几千个用户同时登录,同时创建千级个容

器,服务并发连接数十万以上;

2)并发任务调度:智算中心应支持对模型训练,推断和数据预处理等任务进行合理调度和

资源分配;

3)数据访问和共享:智算中心应支持数据共享和访问控制机制,以确保多个用户可以安全

地访问和共享数据,同时保护敏感数据的隐私。

d)可靠性和容错能力

1)高可用性:智算中心应具备高可用性,支持负载均衡,故障切换和灾备恢复机制;

2)容错处理:智算中心应具备容错处理机制,以应对系统故障和异常情况,如硬件故障,

网络中断等;

3)数据完整性和一致性:智算中心应支持数据备份、数据校验和错误修复机制,以确保数

据在存储和处理过程中的完整性和一致性;

4)异常监测和报警:智算中心应具备异常检测和报警机制,确保系统出现异常时及时通知

管理员或用户;

5)时延:机器学习平台和大模型智算平台的服务访问的平台延时时间在秒级以内;

6)故障恢复:机器学习平台和大模型智算平台的功能类服务的故障恢复时间在分钟级以

内;

7)日志和审计:智算中心应支持记录和审计关键操作和事件;

8)弹性扩展:智算中心应具备资源弹性扩展能力;

9)性能监控和调整:智算中心应提供性能监控和调整工具,以帮助用户根据需求调整资源

分配,优化性能。

e)北向接口

机器学习平台和大模型智算平台应提供restfulAPI、kafka等标准的北向数据接口接入统一运

营运维平台。

6智算基础设施

通用要求

各类智算基础设施针对简单智算、中等智算和大模型智算场景应支持的技术要求如表1所示。

6

T/CSAExx—20xx

表1不同智算场景对智算基础设施的技术要求

功能项简单智算中等智算大模型智算

IDC机房Ÿ保证电子信息系Ÿ基础设施在冗余能力范围Ÿ基础设施应在一次意外事

统运行不中断;内,不得因设备故障而导致故后或单系统设备维护或

Ÿ双重电源供电当电子信息系统运行中断;检修时仍能保证电子信息

只有一路电源Ÿ双重电源供电,当只有一路系统正常运行;

时,应设置UPS设电源时,应设置柴油发电机Ÿ应由双重电源供电,应设置

备作为备用电组作为备用电源,UPS提供柴油发电机组作为备用电

源;双路供电电源;源,UPS提供双路供电电源;

Ÿ供电电源应按二Ÿ供电电源应按一级负荷考Ÿ供电电源应按一级负荷中

级负荷考虑;虑;特别重要的负荷考虑;

Ÿ网络布线应具备Ÿ网络布线应具备支持10GBŸ网络布线应至少支持10GB

支持10GB/s、/s(管理网)、25GB/s(存/s(管理网)、100GB/s(存

40GB/s网络的储网)和100GB/s(计算网)储网)和200GB/s(计算

能力。网络的能力。网)网络的能力

交换机提供支持推理的计算Ÿ提供支持训练的高速网络;Ÿ支持高性能高速网络,分别

网络以及存储网络Ÿ提供拥塞控制机制;用于并行计算程序的集群

Ÿ提供基于内存的样本数据计算网络以及并行存储系

访问加速。统的存储网络;

Ÿ上行支持10G/25G/100Gb/sŸ支持基于内存的样本数据

端口到核心交换机访问加速;

Ÿ支持GPU直接通过网卡接入

网络的双中心架构、全对

等、扁平化的多轨集群架

构;

Ÿ支持高性能集合通信库;

Ÿ上行支持

10G/100G/200Gb/s端口到

核心交换机

智算服可具备此项能力Ÿ提供FP32、FP16和FP8非稀Ÿ提供FP32、FP16和FP8非稀

务器疏算力疏算力

Ÿ主频2.0以上,处理器核心Ÿ应支持AI芯片之间的高速

≥32核,内存≥512GB,8块互联带宽不低于200GB

GPU卡(典型32G)Ÿ主频≥2.0以上,处理器核

心≥48核,内存≥1TB,8块

GPU卡

通用计处理器核心≥24核,处理器核心≥24核,内存≥处理器核心≥32核,内存≥2TB,

算服务内存≥512GB,≥1块512GB,≥2块3.84TSSD≥4块1.92TSSD

器960GSSD

存储服无差异化要求

务器

7

T/CSAExx—20xx

安全服Ÿ防火墙(支持入Ÿ防火墙(支持入侵防御及防Ÿ防火墙(支持入侵防御及防

务器侵防御及防病病毒),最大吞吐量≥病毒),最大吞吐量≥

毒),最大吞吐8Gbps,每秒新建连接数≥40Gbps,每秒新建连接数≥

量≥8Gbps,每秒15万,并发连接数≥200万;20万,并发连接数≥600万;

新建连接数≥15ŸWeb应用防火墙支持基本防ŸWeb应用防火墙支持SQL注

万,并发连接数护功能;入语义分析等高级防护功

≥200万;Ÿ提供态势感知和堡垒机集能;

ŸWeb应用防火墙中管理资产权限Ÿ提供态势感知和堡垒机集

支持基本防护功中管理资产权限

能;Ÿ提供多链路/服务器负载均

Ÿ提供态势感知和衡、全局负载、智能DNS能力

堡垒机集中管理

资产权限

IDC机房

6.2.1选址及设备布置

a)在保证电力供给、通信畅通、交通便捷的前提下,智算中心的建设应选择气候环境温度相对较

低的地区,这样有利于降低能耗。

b)电子信息系统受粉尘、有害气体、振动冲击、电磁场干扰等因素影响时,将导致运算差错、误

动作、机械部件磨损、腐蚀、缩短使用寿命等。智算中心位置选择应尽可能远离产生粉尘、有

害气体、强振源、强噪声源等场所,避开强电磁场干扰。

c)水灾隐患区域主要是指江、河、湖、海岸边,A级智算中心的防洪标准应按100年重现期考虑;

B级智算中心的防洪标准应按50年重现期考虑。在园区内选址时,智算中心不应设置在园区低

洼处。

d)对智算中心选址地区的电磁场干扰强度不能确定时,需做实地测量,测量值超过本规范第5章

规定的电磁场干扰强度时,应采取屏蔽措施。

e)从安全角度考虑,大模型智算中心不宜建在公共停车库的正上方,当只能将智算中心建在停车

库的正上方时,应对停车库采取防撞防爆措施。

f)大中型智算中心是指主机房面积大于200m2的智算中心。由于空调系统的冷却塔或室外机组工

作时噪声较大,如果智算中心位于住宅小区内或距离住宅太近,噪声将对居民生活造成影响。

居民小区和商业区内人员密集,也不利于智算中心的安全运行。

g)智算中心各类设备包括服务器、存储设备、网络设备、机柜(架)、供配电设备、空调设备、给

排水设备、消防设备、监控设备等。工艺专业应遵循近期建设规模与远期发展规划协调一致的

原则,按照模块化的建设思路,根据数据中心的不同应用进行设备平面布置。

6.2.2环境要求

a)主机房和辅助区内的温度、露点温度和相对湿度对电子信息设备的正常运行和数据中心节能

非常重要。有关环境对印刷线路板及电子元器件的影响研究表明,影响静电积累效应和空气中

8

T/CSAExx—20xx

各种盐类粉尘潮解度的是空气含湿量,在气压不变的情况下,由于露点温度可以直接体现空气

中的含湿量,因此采用露点温度更具有可操作性。

b)电子信息设备停机时,主机房也应该保持一定的环境温度和相对湿度。“停机”是指设备已经

拆除包装并安装,但未投入运行或停机维护阶段。

c)由于空气中的悬浮粒子有可能导致电子信息设备内部发生短路等故障,为了保障重要的电子

信息系统运行安全,本规范对数据中心主机房在静态或动态条件下的空气含尘浓度做出了规

定。根据现行国家标准《洁净厂房设计规范》GB50073的规定进行计算,每立方米空气中粒径

大于或等于0.5μm的悬浮粒子数为17600000的空气洁净度等级为8.7级。

6.2.3建筑与结构

a)由于数据中心的建筑是一次性建成,而电子信息设备是分期投入的,故要求建筑平面应具有灵

活性,在后期基础设施的施工和安装过程中,不应影响前期电子信息设备的正常运行。

b)从空调气流组织合理性及设备和管线安装方便角度考虑,对于新建数据中心和层高较高的已

有建筑,主机房净高要求不小于3.0m。当利用已有建筑改建数据中心时,由于某些建筑层高较

低,主机房净高可适量降低,但不应小于2.6m,此时机柜容量也应适量降低。在满足电子信息

设备使用要求的前提下,还应综合考虑室内建筑空间比例的合理性以及对建设投资和日常运

行费用的影响。

c)规定变形缝不宜穿过主机房的目的是为了避免因主体结构的不均匀沉降而破坏电子信息系统

的运行安全。当由于主机房面积太大而无法保证变形缝不穿过主机房时,则必须控制变形缝两

边主体结构的沉降差。

d)数据中心设置单独出入口的目的是为了避免人流物流的交叉,提高数据中心的安全性,减少灰

尘被带入主机房。尤其是当数据中心位于其他建筑物内时,应采取措施,避免无关人员和货物

进入数据中心。

e)主机房一般属于无人操作区,辅助区一般含有测试机房、总控中心、备件库、维修室、用户工

作室等,属于有人操作区。设计规划时宜将有人操作区和无人操作区分开布置,以减少人员将

灰尘带入无人操作区的机会。但从操作便利角度考虑,主机房和辅助区宜相邻布置。

6.2.4空气调节

a)电子信息设备在运行过程中产生大量热,这些热量如果不能及时排除,将导致机柜或主机房内

温度升高,过高的温度将使电子元器件性能劣化、出现故障,或者降低使用寿命。此外,制冷

系统投资较大、能耗较高,运行维护复杂。因此,空气调节系统设计应根据数据中心的等级,

采用合理可行的制冷系统,对数据中心的可靠性和节能具有重要意义。

b)数据中心内设备的散热量应以设备实际用电量为准。对主机房内的电子信息设备的用电量不

能完全掌握时,可参考所选UPS电源的容量和冗余量来计算设备的散热量。

c)从节能的角度出发,机柜间采用封闭通道的气流组织方式,可以提高空调利用率。采用水平送

风的行间制冷空调进行冷却,可以降低风阻。随着电子信息技术的发展,机柜的容量不断提高,

设备的发热量将随容量的增加而加大,为了保证电子信息系统的正常运行,对设备的降温也将

出现多种方式,各种方式之间可以相互补充。

9

T/CSAExx—20xx

d)主机房内的线缆数量很多,一般采用线槽或桥架敷设。当线槽或桥架敷设在高架活动地板下

时,线槽占据了活动地板下的部分空间。当活动地板下作为空调静压箱时,应考虑线槽及消防

管线等所占用的空间,空调送风量应按地板下的有效送风面积进行计算。

e)主机房维持正压的目的是为了防止外部灰尘进入主机房。

6.2.5电气

a)大模型智算中心的供电电源应按一级负荷中特别重要的负荷考虑,中等智算中心的供电电源

应按一级负荷考虑,简单智算中心的供电电源应按二级负荷考虑。

b)规定引入机房的户外供电线路不宜采用架空方式敷设的目的是为了保证户外供电线路的安全,

保证数据中心供电的可靠性。户外架空线路易受到自然因素(如台风、雷电、洪水等)和人为因

素(如交通事故)的破坏,导致供电中断,故户外供电线路宜采用直接埋地、排管埋地或电缆沟

敷设的方式。当户外供电线路采用埋地敷设有困难,只能采用架空敷设时,应采取措施,保证

线路安全。

c)数据中心供电可靠性要求较高,为防止其他负荷干扰,当数据中心用电容量较大时,应设置专

用配电变压器供电;数据中心用电容量较小时,可由专用低压馈电线路供电。

d)数据中心低压配电采用TN-S系统可以对雷电浪涌进行多级保护,对UPS和电子信息设备进行电

磁兼容保护。

e)备用电源是保障大模型智算中心正常运行的必要条件,独立于正常电源的发电机组和供电网

络中独立于正常电源的专用馈电线路都可以作为备用电源。由于柴油发电机组在可操作性上

优于其他备用电源,故大部分数据中心采用柴油发电机组作为备用电源。

f)中等中心比大模型智算中心在电源可靠性方面降低了要求,当B级数据中心由双重电源供电时,

不需要再设置备用电源。

6.2.6电磁屏蔽

a)设有电磁屏蔽室的数据中心,结构荷载除应满足电子信息设备的要求外,还应考虑金属屏蔽结

构需要增加的荷载值。根据调研,需要增加的结构荷载与屏蔽结构形式及屏蔽室的面积有关,

一般在1.2kN/m2~2.5kN/m2范围内。

b)滤波器、波导管等屏蔽件一般安装在电磁屏蔽室金属壳体的外侧,考虑到以后的维修,需要在

安装有屏蔽件的金属壳体侧与建筑(结构)墙之间预留维修通道或维修口,通道宽度不宜小于

600mm。

c)电磁屏蔽室的接地采用单独引下线的目的是为了防止屏蔽信号干扰电子信息设备,引下线一

般采用截面积不小于25mm2的多股铜芯电缆。

d)屏蔽件的性能指标主要是指衰减参数和截止频率等。选择屏蔽件时,其性能指标不能低于电磁

屏蔽室的屏蔽要求。根据调研,屏蔽件的性能指标适当提高一些,屏蔽效果会更好。

6.2.7网络与布线系统

a)数据中心布线系统与网络系统架构密切相关,设计时应根据网络架构确定布线系统。

10

T/CSAExx—20xx

b)传输介质主要是指设备缆线、跳线和配线设备。冗余配置的要求主要针对大模型和中等智算中

心的布线,对于简单智算中心的布线,可根据具体情况确定。网络布线应具备支持10GB/s、

40GB/s和100GB/s网络的能力。

c)MPO是多芯推进锁闭光纤连接器件,通过阵列完成多芯光纤的连接;MTP是基于MPO发展而来的

机械推拉式多芯光纤连接器件,MTP兼容所有MPO连接器件标准和规范。单个MPO/MTP连接器件

可以支持12芯、24芯、48芯或72芯光纤的连接。存储网络光纤链路设计采用多芯MPO/MTP预连

接系统是为了满足存储设备的损耗性能要求。

d)主机房中的对绞线缆配线架和光纤配线箱可以安装在机柜(架)内,也可以通过支架安装在桥

架上。

e)为防止电磁场对布线系统的干扰,避免通过布线系统对外泄漏重要信息,应采用屏蔽布线系

统、光缆布线系统或采取其他电磁干扰防护措施(如建筑屏蔽)。当采用屏蔽布线系统时,应保

证链路或信道的全程屏蔽和屏蔽层可靠接地。

6.2.8智能化系统

a)智算中心智能化系统设计内容一般包括:环境和设备监控系统、网络与布线系统、电话交换系

统、小型移动蜂窝电话系统、火灾自动报警及消防联动控制系统、背景音乐及紧急广播系统、

视频安防监控系统、入侵报警系统、出入口控制系统、停车库管理系统、电子巡更管理系统、

电梯管理系统、周界防范系统、有线电视系统、卫星通信系统、大屏幕显示系统、扩声系统、

中控系统、KVM系统、资产管理系统、数据中心气流与热场管理系统等,各数据中心可根据实

际需求确定。

b)智能化系统的主机和人机界面可以集中设置在总控中心内(消防控制室单独设置时,其他系统

可以集中设置在总控中心内)。为了提高供电电源的可靠性,各系统宜采用独立的UPS电源。当

采用集中UPS电源供电时,应采用单独回路为各系统配电。A级和B级数据中心,应为UPS提供双

路供电电源。

c)系统对监控范围内分布的各监控对象进行实时监视,记录和处理相关数据,检测故障,适时通

知相关人员处理故障,根据要求提供相应的数据和报表,实现机房的无人值守,以及环境和设

备的集控监控、维护和管理,对电能利用效率(PUE)和水利用效率(WUE)进行检测和计算。

6.2.9给水排水

a)挡水和排水设施用于自动喷水灭火系统动作后的排水、空调冷凝水及加湿器的排水,防止积

水。

b)设置冷却水补水储存装置是为了保证数据中心冷源供水系统的可靠性,防止市政供水中断导

致数据中心供冷中断。

6.2.10消防与安全

a)常用的气体灭火剂分为卤代烷和惰性混合气体,前者的典型代表为七氟丙烷(HFC-227ea),后

者的典型代表为IG-541。卤代烷的灭火机理是化学反应,惰性气体灭火机理是控制氧气浓度和

窒息。气体灭火系统具有响应速度快、灭火后药剂无残留、对电子设备损伤小等特点。气体灭

11

T/CSAExx—20xx

火系统自动化程度高、灭火速度快,对于局部火灾有非常强的抑制作用,但由于造价高,因此

应选择火灾对机房影响最大的部分设置气体灭火系统。

b)对于空间较大,且只有部分设备需要重点保护的房间(如变配电室),为进一步降低工程造价,

可仅对设备(如配电柜)采取局部保护措施,如可采用探火管自动灭火装置。

c)智算中心发生火灾,其后果都很严重,因此必须设置火灾探测报警系统,便于早期发现火灾,

及时扑救,使损失减到最小。现行国家标准《火灾自动报警系统规范》GB50116对火灾探测和

联动控制有详细的要求。

6.2.11基础设施运行维护

a)设施系统与设备运行应包括值班、监控日常巡检、运行操作、报和事件处理内容。

b)大型智算中心应24H值班,中等和简单智算中心宜按照子信息设备负载的重要性确定值班时间。

c)消防系统和安防范系统应24H保持正常工作状态,不得随意中断。

d)运行人员应按照巡检计划、周期、规定路线对基础设施系统和设备及运行环境进行巡检,巡检

记录应及时、完整、真实、清晰。

e)大型智算中心每日现场巡检次数不应少于2次,中等和简单智算中心每日场巡检次数不应少于

1次。

f)有能耗计量系统的智算中新,应保证能耗计装置正常工作,数据完整有效。

g)智算中心能耗数据应定期进行综合分析,合理优化电气与通风调系统的运行控制策略,提高整

体电能使用效率。

h)设备有备用或冗余的,应轮换使用。

RDMA网络交换机

6.3.1InfiniBand

接口与线缆要求

a)交换机设备200G端口数量≥40个;

b)交换机设备支持DAC铜缆或AOC线缆;

c)交换机配套光纤的误码率≤1E-15。

功能要求

a)高速计算网络应符合InfiBand相关技术规范;

b)支持原生RDMA硬件支持,不接受软件模拟RDMA;

c)支持MPI点到点通信和聚合类通信硬件卸载,提供MPI通信优化软件包;

d)支持Adaptiverouting动态路由。

性能要求

a)支持网络链路故障快速恢复和动态路由,网络收敛时间<1ms;

b)交换机端口转发延迟<130ns;

c)设备整机交换容量≥16Tbps(A类);

12

T/CSAExx—20xx

d)IB流量多打多场景,针对不同消息长度,网络端到端平均带宽需满足>15Gb/s;

e)IB流量alltoall场景,针对不同消息长度,网络端到端的平均带宽需满足>15Gb/s,平均时延

需满足<1000us;

f)IB流量allreduce场景,针对不同消息长度,网络端到端的平均带宽需满足>20GB/s,平均时

延需满足<2500us。

硬件要求

a)交换机设备的高度≤1U;

b)配置冗余电源和冗余风扇;

c)支持电源和风扇的热插拔;

d)支持220V交流双路供电(要求价格保持一致,签约时由用户确定供货电源类型。直流电源不得

使用直/交逆变模块)。

网络管理要求

a)支持图形化管理软件,能够对网络运行、网络性能、故障以及拥塞状况进行监控;

b)网管软件能够自动发现拓扑和设备,并对设备进行管理、对性能进行优化,支持管理系统的高

可用。

6.3.2RoCEV2

a)宜基于通用以太网交换机、网卡和组网,支持网络性能无损的集群规模扩展和PFC死锁检测,

避免集群网络不可用的系统性风险,保障网络整体SLA;

b)接入交换机提供业务网接入和互联网接入;

c)支持高性能高速网络,分别用于并行计算程序的集群计算网络以及并行存储系统的存储网络;

d)提供IPMI网络,接入到系统管理网;

e)宜采用双25GE网络进行云内的业务组网,上端对接核心交换机;

f)宜采用双10GE接入网络交换机组成系统管理网,上端对接网管核心交换机;

g)支持GPU直接通过网卡接入网络的双中心架构,提升集群通信效率,降低节点内静态拥塞;

h)支持全对等、扁平化的多轨集群架构(2个核心span+交换机lif),实现多路通信和资源间的

直接互联互通;扩展:跨数据中心;

i)支持流控算法、网络协议与架构的协同设计,提升网络传输性能,降低动态拥塞;

j)支持高性能集合通信库,提供GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知

的无拥塞集群通信能力;

k)支持基于内存的样本数据访问加速,降低数据加载时长。

6.3.3汇聚交换机

a)支持不少于48个10GSFP+接口和不少于4个40GQSFP+接口;

b)交换容量不低于12Tbps,包转发率不低于4480Mpps;

c)支持基于端口、基于协议、基于MAC的VLAN;

13

T/CSAExx—20xx

d)支持RIP、OSPF、ISIS、BGP等IPv4动态路由协议,支持RIPng、OSPFv3、ISISv6、BGP4+等IPv6

动态路由协议;

e)支持MPLS、MCE,支持MPLSVPN,支持MPLSTE;

f)支持streamingtelemetry,支持线速提供可视化信息,提供入端口,出端口和入出时间信息;

g)支持简化MOD,不占用路由资源;支持增强TCB,全局端口所有队列同时丢包监控;

h)支持BGP-EVPN,支持VxLAN,支持VxLANOAM:VxLANping,VxLANtracert,支持QinQin

VxLAN,支持GRETunnel;

i)支持无损网络RDMA,支持PFC、ECN、ETS;支持INT(In-bandNetworkTelemetry);

j)配置100GE光模块不少于12个。

6.3.4核心交换机

a)支持主控制引擎模块不少于2个;

b)可用槽位不少于6个;

c)支持至少36个100GE下行接口;至少48端口万兆以太网口;

d)交换容量不少于12Tbps,包转发率不低于4480Mpps;

e)支持基于端口、基于协议、基于MAC的VLAN;

f)支持RIP、OSPF、ISIS、BGP等IPv4动态路由协议,支持RIPng、OSPFv3、ISISv6、BGP4+等IPv6

动态路由协议;

g)支持MPLS、MCE,支持MPLSVPN,支持MPLSTE;

h)支持streamingtelemetry,支持线速提供可视化信息,提供入端口,出端口和入出时间信息;

i)支持简化MOD,不占用路由资源;支持增强TCB,全局端口所有队列同时丢包监控;

j)支持BGP-EVPN,支持VxLAN,支持VxLANOAM:VxLANping,VxLANtracert,支持QinQin

VxLAN,支持GRETunnel;

k)支持无损网络RDMA,支持PFC、ECN、ETS;支持INT(In-bandNetworkTelemetry);

l)配置100GE光模块不低于12个。

智算算力服务器

智算算力服务器应支持的功能要求包括但不限于:

a)应支持至少2个独立或集成的CPU;

b)应支持至少两种深度学习或机器学习框架;

c)应支持DDR4或以上版本的内存,宜支持不少于16个DDR控制器;

d)应支持SAS、SATA或NVME等存储协议;

e)应支持计算机视觉,自然语言处理,声音处理场景模型训练;

f)应支持PCIE协议,版本不低于3.0,宜支持至少2个PCIE控制器;

g)应支持USB2.0通信,配备接口;

h)应支持100GE、25GE、10GE、GE接口;

i)支持片间数据通道或接口,单向通信速率不低于24Gbps;

j)宜支持人工智能加速处理器芯片直出的参数面网口;

k)采用人工智能加速器片上内存时,片上内存不宜低于32GB,总带宽不宜小于1200GB/s;

14

T/CSAExx—20xx

l)采用板载内存时,板载内存不宜低于48GB;

m)应支持图像、视频预处理;

n)服务器整机电源功率不应低于2KW;

o)单条内存容量应不小于32GB,宜能支持64GB或以上单条存容量;

p)可配内存数量应不低于16条,宜不低于32条;

q)支持虚拟化的人工智能加速处理器(如NPU、GPU),GPU虚拟化支持显存、算力双维度自由切

分和动态创建销毁;

r)支持跨架构的GPU虚拟化技术,提供智算算力池化,推理和训练服务器的混合部署。

通用计算服务器

通用计算服务器应支持的功能要求包括但不限于:

a)应支持至少2个独立或集成的CPU;

b)应支持CPU虚拟化技术,如虚拟机、容器等;

c)宜支持L3缓存,容量不低于16MB;

d)宜支持DDR4或以上版本的内存;

e)应支持PCIE协议,版本不低于3.0;

f)应支持25GE、10GE、GE等网络接口;

g)应支持图像、视频预处理模块;

h)应支持计算机视觉,自然语言处理,声音处理场景模型推理;

i)应支持SAS、SATA或NVME等存储协议;

j)服务器整机电源功率不应低于500W;

k)单条内存容量不应小于16GB,宜能支持64GB或以上单条存容量;

l)可配内存数量应不低于8条,宜不低于24条。

存储服务器

存储服务器应支持的功能要求包括但不限于:

a)应支持至少2个独立或集成的CPU;

b)宜支持L3缓存,容量不低于16MB;

c)宜支持DDR4或以上版本的内存;

d)应支持PCIE协议,版本不低于3.0;

e)应支持至少6个以上25GE、10GE、GE等网络接口;

f)应支持SAS、SATA或NVME等存储协议;

g)服务器整机电源功率不应低于500W;

h)单条内存容量不应小于32GB,宜能支持64GB或以上单条存容量;

i)可配内存数量应不低于16条,宜不低于32条;

j)可配SSD硬盘不低于10块,单块硬盘容量不低于480GB,宜能支撑3.84TB以上容量;

k)可配SATA或SAS硬盘不低于24块,单块硬盘容量不低于16TB,硬盘转数不低于7.2KPRM。

安全服务器

安全服务器应支持的功能要求包括但不限于:

a)应支持至少1个独立或集成的CPU;

b)宜支持L3缓存,容量不低于16MB;

15

T/CSAExx—20xx

c)宜支持DDR4或以上版本的内存;

d)应支持PCIE协议,版本不低于3.0;

e)应支持至少6个以上25GE、10GE、GE等网络接口;

f)应支持1个以上带外管理接口;

g)应支持SAS、SATA或NVME等存储协议;

h)服务器整机电源功率不应低于500W;

i)单条内存容量不应小于16GB,宜能支持64GB或以上单条存容量;

j)可配内存数量应不低于8条,宜不低于16条。

k)应提供硬件可信执行环境(TEE),供特权软件运行。

l)防火墙支持应用控制、URL过滤、病毒防护、入侵防御等功能;

m)Web应用防火墙支持HTTP规范性检测、注入防护、漏洞防护等基础功能,以及SQL注入语义分析、

XSS跨站脚本语义分析、网站盗链行为检测与防御、XML攻击防护等高级防护功能;

n)提供态势感知和堡垒机集中管理资产权限;

o)提供负载均衡能力,包括多链路/服务器负载均衡、全局负载、智能DNS等能力。

7智算基础平台

通用要求

智算基础平台的各项服务针对简单智算、中等智算和大模型智算场景应支持的要求如表2所示。

表2不同智算场景对智算基础平台的技术要求

功能项简单智算中等智算大模型智算

算力服务基本CPU计算能力和CPU+GPU及GPU加速和分高性能计算资源、包括多CPU、

并行计算能力布式计算能力;默认都是数据中心级的GPU,

支持并行计算和分布式支持大规模并行计算和分布式训

训练练

容器服务镜像大小几百兆到几镜像大小几十G到数十G镜像大小几十G到百G,镜像部署

个G之前,镜像部署时之间,镜像部署时间小时间几个小时到数天级

间分钟级时级

容器镜像服务镜像构建时间几分钟镜像构建时间几分钟至镜像构建时间小时至数数天

数小时

网络服务响应时间:网络服务响应时间:网络服务应响应时间:网络服务应能在几百

应能在几十毫秒至数能在几十毫秒至数百毫毫秒至数秒的范围内快速响应。

百毫秒的范围内快速秒的范围内快速响应。并发连接:网络服务应能处理数

响应。并发连接:网络服务应万到数十万个并发连接。

并发连接:网络服务能处理数千到数万个并数据传输:支持大规模数据的高

应能处理数百到数千发连接。速传输和低延迟的通信。

个并发连接。数据传输:支持中等规

模数据的高效传输和低

延迟的通信。

16

T/CSAExx—20xx

数据传输:支持小规

模数据的快速传输和

低延迟的通信。

存储服务单数据文件<1TB,单数据文件>1TB,中等通用预训练:单数据文件>2TB,

IOPS>1万,吞吐量ms级延时,IOPS>3万,百亿小文件,IOPS百万级,吞吐

<4GB/S吞吐量<10GB/S量>100GB/S

行业预训练:单数据文件>1TB,

中等ms级延时,IOPS>3万,吞吐

量<10GB/S

微调训练:

单数据文件<1TB,IOPS>1万,吞

吐量<4GB/S

安全服务提供基础的访问控提供细粒度的访问控提供高级访问控制和身份认证能

制,制;具备较强的监测防力;

监测防御常见网络威御能力;支持敏感操作监测防御复杂的网络安全威胁和

胁;记录和审计常见的审计和追踪。攻击;

访问操作日志。支持全面的安全审计和日志记

录。

算力服务

智算基础平台的算力服务应满足的要求包括但不限于:

a)支持通用算力和智算算力两种计算方式,满足不同应用场景需要;

b)提供弹性伸缩能力,用户可以根据实际需求进行配置和调整;

c)支持多种任务调度方式,包括批处理、交互式应用、实时流处理等;

d)支持多种操作系统,包括Linux和Windows等;

e)提供高可用性和容错能力,确保计算持续稳定运行。

容器服务

智算基础平台的容器服务应满足的要求包括但不限于:

a)提供轻量级、可移植和可扩展的容器环境;

b)支持常见的容器化技术,如Docker和Kubernetes等;

c)提供容器编排机制,确保容器服务的高可靠性和高可用性;

d)支持容器自动发现和扩展;

e)提供容器网络隔离和安全性保护。

容器镜像服务

智算基础平台的容器镜像服务应满足的要求包括但不限于:

a)提供灵活的容器镜像管理和分发系统;

b)支持常见的容器镜像仓库,如DockerHub和阿里云镜像库等;

17

T/CSAExx—20xx

c)提供高效、安全和可靠的容器镜像构建和打包;

d)支持镜像的标签管理和自动化构建。

网络服务

智算基础平台的网络服务应满足的要求包括但不限于:

a)提供高性能和低延迟的网络服务,支持超大规模网络,宜采用适合大模型训练网络流量特征的

网络架构,如fat-tree等;

b)应支持RDMA高性能网络,如InfiniBand、RoCE,及相应的网卡、交换机。国产化场景应支持RoCE

网络;

c)实现虚拟专用云(VPC)网络,实现安全访问和隔离;

d)支持不同网络协议,如TCP/IP、UDP和HTTP等;

e)提供负载均衡和流量控制机制,确保高可用性和高吞吐量。

存储服务

智算基础平台的存储服务应满足的要求包括但不限于:

a)提供高性能的存储能力,如高性能存储、对象存储、块存储和文件存储等;

b)提供不同存储方式,如分布式文件系统、分布式块存储和对象存储等;

c)提供数据备份和恢复能力,确保数据不受意外损失;

d)提供数据压缩、加密(传输加密和服务端加密)和鉴别等安全保护措施;

e)实现容器化存储,确保数据隔离

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论