金融数据中心人工智能算力建设指引 2023_第1页
金融数据中心人工智能算力建设指引 2023_第2页
金融数据中心人工智能算力建设指引 2023_第3页
金融数据中心人工智能算力建设指引 2023_第4页
金融数据中心人工智能算力建设指引 2023_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

金融数据中心

人工智能算力建设指引

北京金融科技产业联盟

2023年8月

编制委员会

编委会成员:

王长江聂丽琴张海燕

编写组成员:

赵春华王妍娟葛金磊张浩然吴仲阳宋虎余学山

白阳符海芳李书建黄志鹏徐旭陆碧波薛亮

谭翔马庆杰李洁郭亮王月吴刚郭江波

吴战立雷昭燕袁智王伟锋李培彭晋李俊奎

杨海悌俞颖熙程归鹏张贯忠李鸿鹏宋飞玄凌博

郑鹏飞黎世勇王云凤

编审:

黄本涛周豫齐王妍娟张浩然

II

参编单位:

北京金融科技产业联盟秘书处

北京国家金融科技认证中心有限公司

中国工商银行股份有限公司

华为技术有限公司

浙江网商银行股份有限公司

中国信息通信研究院

腾讯云计算(北京)有限责任公司

新华三技术有限公司

蚂蚁科技集团股份有限公司

中科寒武纪科技股份有限公司

超聚变数字技术有限公司

北京百度网讯科技有限公司

III

前言

人工智能基础设施作为“新基建”的重要组成部分,是数字

化走向智能化的核心力量,是金融机构智慧再造的关键载体。近

年来,我国发布多项政策文件,进一步明确人工智能的发展规划,

对人工智能算力建设指出方向。2021年底,中国人民银行发布

《金融科技发展规划(2022—2025年)》,提出抓住全球人工智能

发展新机遇,以人为本全面推进智能技术在金融领域深化应用,

着力打造场景感知、人机协同、跨界融合的智慧金融新业态,实

现金融服务全生命周期智能化。

人工智能算力数据中心是以数据中心为基础的人工智能基

础设施。具体来说,人工智能数据中心是在超算中心和云计算数

据中心大规模并行计算和数据处理的技术架构基础之上,通过大

数据和深度学习技术保障其高效、安全运营,以人工智能专用芯

片为计算算力底座,融合公共算力服务、数据开放共享、智能生

态建设、产业创新聚集“四位一体”的综合平台,可提供算力、

数据和算法等人工智能全栈能力,是当前人工智能快速发展和应

用所依托的新型算力基础设施。“数据、算法、算力、开放平台”

是人工智能基础设施的核心内容,其中算力包括AI芯片、AI平

台、智能计算中心等产品,提供高性能、低成本、绿色的计算能

力是算力建设的关键目标。

本报告阐述了国内外人工智能算力建设情况,梳理了当前金

IV

融数据中心人工智能算力建设面临的挑战,从整体上提出人工智

能算力数据中心的架构,围绕基建、硬件及软件基础设施给出了

人工智能算力建设指引,并进一步分析了传统与新型算力、数据

中心算力与边缘算力、算力与网络等关键技术的协同建设问题,

探索了人工智能算力数据中心绿色低碳运维模式,最后通过成功

案例展望未来,以期为金融机构数据中心建设人工智能算力基础

设施提供指引与参考。

关键词:人工智能、AI算力、人工智能算力数据中心、AI使

能软件、AI开发框架

V

目录

第一章发展背景和研究目标....................................1

一、发展背景.................................................1

(一)国家政策及“十四五”规划要求..........................1

(二)金融科技发展的基础支撑................................4

(三)国内外当前AI算力建设情况.............................4

二、研究目标.................................................9

第二章面临的挑战和难点.....................................10

一、整体看..................................................10

(一)数据中心AI算力发展不均衡............................10

(二)数据中心AI计算能力不足..............................10

(三)数据中心AI算力连接和协同能力不强....................10

(四)数据中心AI算力调度不灵活............................11

二、分层看..................................................11

(一)数据中心选址问题(L0层)............................11

(二)能耗及供电问题(L1层)..............................12

(三)AI算力底座与周边设备及网络的问题(L2层)............12

(四)支持不同业务场景的AI应用问题(L3层)................13

第三章建设指引.............................................14

一、人工智能算力数据中心架构................................14

(一)总体架构.............................................14

(二)分层布局.............................................15

二、基建基础设施层(L0-L1)..................................20

三、硬件基础设施层(L2)....................................20

(一)AI芯片..............................................20

(二)AI服务器............................................21

(三)AI计算子系统........................................22

四、软件基础设施层(L3)....................................22

VI

(一)芯片使能软件.........................................22

(二)AI开发框架..........................................23

(三)使能软件.............................................23

第四章建设协同.............................................30

一、整体原则................................................30

二、传统算力与新型算力协同..................................30

(一)算力产品特征.........................................30

(二)算力协同建设.........................................32

三、数据中心算力与边缘算力协同..............................37

四、算力与网络协同..........................................39

(一)广域算力网络架构.....................................40

(二)广域算力网络关键技术.................................43

(三)数据中心算力网络关键技术.............................44

(四)算力网络协同关键技术.................................46

(五)算力网络数字化能力...................................47

第五章运维和节能管理.......................................49

一、运维管理................................................49

(一)人员组织.............................................49

(二)日常运行维护.........................................50

二、节能管理................................................50

第六章成功案例和未来展望...................................53

一、成功案例................................................53

(一)工商银行基于高性能网络的中高算力集群探索.............53

(二)蚂蚁集团AI算力端云协同发展实践......................54

(三)网商银行基于卫星遥感的AI算力服务农村金融实践........56

二、未来展望................................................57

(一)AI算力的建设需求快速提升............................57

(二)AI算力的金融价值不断凸显............................58

参考文献....................................................60

VII

第一章发展背景和研究目标

一、发展背景

(一)国家政策及“十四五”规划要求

人工智能基础设施是“新基建”的重要组成部分,是数字化

走向智能化的核心力量,是金融机构智慧再造的关键载体。“数

据、算法、算力、开放平台”是人工智能基础设施的核心内容,

其中算力包括AI芯片、AI平台、智能计算中心等产品,提供高

性能、低成本、绿色的计算能力是算力建设的关键目标。

近年来,我国发布多项政策文件,进一步明确人工智能的发

展规划,对人工智能算力建设指出方向。人工智能已上升为国家

战略,人工智能的发展迎来重大机遇。表1汇总了近年来国家和

相关部委发布的人工智能及算力相关政策。

表1人工智能及算力相关政策

时间内容

国务院总理李克强2017年政府工作报告,指出要加快培

2017年3月育壮大包括人工智能在内的新兴产业,“人工智能”首次

被写入了国家政府工作报告。

国务院出台《新一代人工智能发展规划》,提出三步走的

2017年7月

战略目标。

工业和信息化部印发《促进新一代人工智能产业发展三

年行动计划(2018—2020年)》,明确了到2020年人工

2017年12

智能在推动战略性新兴产业总体突破、推进供给侧结构

性改革、振兴实体经济、建设制造强国和网络强国方面的

重大作用和具体目标。

1

时间内容

国务院总理李克强在十三届全国人大一次会议作政府工

2018年3月作报告时表示,要加强新一代人工智能研发应用,在医

疗、养老、教育、文化、体育等多领域推进“互联网+”。

习近平总书记在两院院士大会上指出,“要推进人工智能

2018年5月

同实体经济深度融合,做大做强数字经济。”

中央经济工作会议,重新定义了基础设施建设,把5G、

2018年12

人工智能、工业互联网、物联网定义为“新型基础设施建

设”。

国务院总理李克强在《2019年国务院政府工作报告》中

2019年3月明确提出深化人工智能等研发应用。紧扣国家发展战略,

加强新一代信息基础设施建设。

中央政治局会议,强调要加快推进信息网络等新型基础

2019年7月

设施建设。

中共中央政治局常务委员会召开会议再次强调“新基

2020年3月

建”,要求加强人工智能等新型基础设施建设。

国家发改委首次明确“新基建”范围,强调数据中心、智

2020年4月

能计算中心就是算力基础设施的代表。

国家标准化管理委员会、中央网信办、国家发展改革委、

2020年7月科技部、工业和信息化部印发《国家新一代人工智能标准

体系建设指南》,指导人工智能标准化工作有序开展。

科技部印发《国家新一代人工智能创新发展试验区建设

2020年10

工作指引(修订版)》,明确要布局建设20个左右国家

人工智能创新发展试验区。

2020年11月17日,国家信息中心信息化和产业发展部

2020年11

发布《智能计算中心规划建设指南》,对智能计算中心的

概念、内涵、技术架构、投建运模式等进行全面解读。

2

时间内容

国务院发布《中华人民共和国国民经济和社会发展第十

四个五年规划和2035年远景目标纲要》,提出要强化国

家战略科技力量,加强原创性引领性科技攻关。新一代人

2021年3月工智能作为重要的科技攻关领域,重点投入前沿基础理

论突破,专用芯片研发,深度学习框架等开源算法平台构

建,学习推理与决策、图像图形、语音视频、自然语言识

别处理等领域创新。

国家发展改革委、中央网信办、工业和信息化部、国家能

源局联合印发《全国一体化大数据中心协同创新体系算

力枢纽实施方案》,明确在京津冀、长三角、粤港澳大湾

2021年5月区、成渝,以及贵州、内蒙古、甘肃、宁夏等地布局建设

全国一体化算力网络国家枢纽节点(以下简称“国家枢纽

节点”)。

在金融行业,银保监会于2019年发布《关于推动银行业和

保险业高质量发展的指导意见》,提出既要充分利用人工智能强

化业务管理,改进服务质量,降本增效,又要发挥人工智能在打

击非法集资、反洗钱、反欺诈等方面的积极作用。在相关宏观政

策的指导下,各地结合自身区域特点和行业发展状况因地制宜出

台相关政策推动智能金融的特色化发展,相关行业标准规范逐步

完善。2021年,中国人民银行发布《人工智能算法金融应用评价

规范》(JR/T0221—2021),规定了人工智能算法在金融领域

应用的基本要求、评价方法、判定准则。金融行业以智能化为目

标,提升金融数字化水平,通过业务流程自动化降低人力成本,

3

通过解决信息不对称问题弥合数据信息差,通过个性化的千人千

面提供普惠金融服务,从而实现业务的增长、风险成本的降低、

运营成本的改善。

(二)金融科技发展的基础支撑

金融科技发展提出人工智能、大数据分析等场景,响应金融

监管政策的要求。2021年12月,中国人民银行印发《金融科技

发展规划(2022—2025年)》,提出“坚持发展与监管两手抓,

推动金融科技在实体经济的沃土中落地生根。大数据、云计算、

人工智能、区块链等技术金融应用成效显著。金融服务覆盖面逐

步扩大,优质金融产品供给不断丰富,金融惠民利企水平持续提

升。”

人工智能作为金融机构数字化转型的重要手段,助力金融行

业在产品设计、市场营销、风险控制、客户服务以及其他支撑性

业务领域和场景中实现整体升级。《金融科技发展规划(2022—

2025年)》在“智慧为民”基本原则中,提出“抓住全球人工智

能发展新机遇,以人为本全面推进智能技术在金融领域深化应用,

强化科技伦理治理,着力打造场景感知、人机协同、跨界融合的

智慧金融新业态,实现金融服务全生命周期智能化,切实增强人

民群众获得感、安全感和幸福感”,加快金融服务智慧再造,提

升数字绿色的服务体系中的智能应用水平。

(三)国内外当前AI算力建设情况

1.国内外算力规模发展

4

2020年全球算力总规模达到429EFlops1,增速达到39%,其

中基础算力规模为313EFlops,AI算力规模为107EFlops,超算

算力规模(换算为FP32)为9EFlops。预估未来五年全球算力规

模将以超过50%的速度增长,到2025年整体规模将达到

3300EFlops。全球算力竞争激烈,基础算力方面以中国和美国为

第一梯队,其中美国占43%份额,中国占26%份额。智能算力方

面,中国智能算力占算力的比重由2016年的3%提升至2020年

41%,以人工智能算力数据中心为代表的AI算力基础设施发展迅

猛。《2020全球计算力指数评估报告》显示“全球计算力水平

top5行业分别是互联网、制造、金融、政府和电信”,金融行业

综合排名进入前三。

2.金融业务应用系统需求

在新一轮科技革命和产业变革的背景下,金融科技蓬勃发展,

人工智能、大数据、云计算、物联网等信息技术与金融业务深度

融合,为金融发展提供源源不断的创新活力。同时《2020全球计

算力指数评估报告》显示“金融行业信息化和数字化起步较早,

金融行业因对算力的稳定性、可靠性、实时性、安全性等方面要

求较高,对于算力的投资规模处于行业领先水平且比较稳定。从

全球来看,金融行业是人工智能算力投资最大的传统行业,据IDC

数据,全球AI算力支出的24.9%来自金融行业,人工智能作为

金融行业数字化转型过程的关键部分,被广泛用于反欺诈、风险

1EFlops:百亿亿次,Flops指的是每秒浮点运算次数,E代表的是一百京,一个EFLOPS(exaFLOPS)等于每

秒一百京(=10^18)次的浮点运算。

5

管控、合规管理、运营流程、自动化客服、智能CRM和量化交易

等领域,辅助金融企业降低成本、提升效率和提高客户体验”。

人工智能应用对算力最大的挑战来自数据中心的模型训练。

具有海量参数的模型训练几乎完全依赖于核心数据中心的算力

支撑。比如2020年微软发布的智能感知计算模型Turing-NLG,

参数量高达到175亿;OpenAI发布的GPT-3模型,参数量更达

到1750亿,是GPT-2的100余倍。由于其庞大的参数体量,在

给人工智能应用提供便利的同时,对AI算力提出了更高的要求。

尤其是在金融行业数字化转型的浪潮中,人工智能的算法越来越

依赖于算力的发展。

3.国内金融业AI典型业务场景

人工智能与金融行业深度融合,金融行业数字化、智能化改

革已经初见成效,金融人工智能整体呈现业务智能价值创造,全

面覆盖产品设计、市场营销、风险控制、客户服务等主流业务场

景。从技术价值来看,人工智能技术正逐步解决行业痛点问题,

在实现业务流程自动化、弥合信息差、构建普惠金融方面发挥着

关键作用,已经在获取增量业务、降低风险成本、改善运营成本、

提升客户满意度方面进入价值创造阶段。从应用场景来看,以机

器学习、机器视觉、生物特征识别、知识图谱等技术赋能的金融

行业,衍生出智慧网点、量化交易、智能投顾、智能风控等多个

典型场景。表2列举了AI算力金融行业应用的十大典型业务场

景。

6

表2AI算力金融行业应用的典型业务场景

场景名称描述

场景:标配“无人、无证、无卡”,提供普惠金融服务、

财富管理服务、智慧金融服务、国际业务等服务。

智慧网点

技术:依托身份识别、数字人、人脸识别、语音识别等技

术提供服务。

场景:模拟人工完成图像识别、关键信息提取、数据录

入、报表生成、行为分析、合规分析、结果决策等。

技术:光学识别技术OCR(OpticalCharacter

数字员工

Recognition)、RPA(RoboticProcessAutomation)技

术、数字人、NLP(NaturalLanguageProcessing)技

术、图像分类。

场景:广泛应用于各类金融机构,提供24小时不间断

问答服务。

智能客服

技术:依托自然语言理解、语音识别、RPA、知识图谱、

NLP等技术提供智能交互服务。

场景及技术:依托先进的数学模型替代人为的主观判断,

量化交易有很多种,包括跨平台搬砖、趋势交易、对冲

量化交易

等。跨平台搬砖是指当不同目标平台价差达到一定金额,

在价高的平台卖出,在价低的平台买入。

场景及技术:人脸识别、声纹识别、静脉识别、指纹识别

智能身份识别

等。

7

场景名称描述

场景:B端金融机构用户,整合各类研报数据。并自动撰

写研报,给出机构投资意见。

智能投研技术:智能投研依赖知识图谱和深度学习技术的进一步

发展,通过智能数据收集、清洗、分析,实现对投资标的

的发展趋势判断与风险预测。

场景:通过一系列智能算法综合评估用户的风险偏好、

投资目标、财务状况等基本信息,并结合现代投资组合

理论为用户提供自动化、个性化的理财方案。其实质是

智能投顾

利用机器模拟理财顾问的个人经验。

技术:核心环节包括用户画像、大类资产配置(投资标的

选择)、投资组合构建和动态优化等。

场景:聚焦存贷款产品营销、信用卡分期、理财产品、节

假日关怀等。

技术:依托推荐引擎和机器学习技术,通过分析用户数

智能营销

据并聚类用户特征,做到“千人千面”的智能推送。利用

知识图谱和自然语言处理等技术建立客户画像,实现精

准的营销定位与需求挖掘。

场景:聚焦金融业交易等风险防控场景,如支付、信贷,

反洗钱等。

智能风控

技术:依托机器学习和知识图谱等技术,通过数据驱动

风险管理与运营优化。

场景:主要集中在支付和金融账户登录等场景。

智能反欺诈技术:包括人脸识别、声纹识别、指纹识别、虹膜识别、

光学识别等。

8

二、研究目标

本课题的研究目标分为两方面。

一是基于当前金融机构积极探索和建设新型人工智能业务

系统及人工智能算力数据中心的情况,广泛吸取金融行业目前较

为优秀的建设经验和解决方案,编制研究报告,为金融机构数据

中心建设人工智能算力基础设施提供指引与参考。

二是在完成研究报告的基础上,进一步编制相关标准,以规

范金融数据中心人工智能算力基础设施建设。

9

第二章面临的挑战和难点

一、整体看

(一)数据中心AI算力发展不均衡

在当今金融业庞大的数据处理量面前,数据中心规模总量和

能耗总量不断增长,而且AI算力业务天然存在波动,存在部分

能耗闲置现象。数据中心特别是西部地区一些数据中心算力资源

未能充分利用的问题也常被业内专家提及。我国东部算力资源紧

张与西部算力需求不足的问题并存,区域数字基础设施和应用空

间布局亟待优化。数字化时代的今天,“东数西算”备受瞩目,

他与“南水北调、西电东送、西气东输”一样,成为国家级的超

级工程,也是解决算力发展不均衡的基本国策。

(二)数据中心AI计算能力不足

伴随数据的激增和算法的日益复杂,算力将成为决定人工智

能发展上限的重要因素。人工智能算力数据中心能耗总量较大,

且保持不断增长。以人工智能专用芯片为计算算力底座,在其上

开发的AI框架、AI应用呈现出多样化、复杂化、碎片化的态势。

电力的潜能已经全被释放,算力的潜能随着数据的产生和数字化

的进展,还会持续释放。合理架构网络,优化算法,运用新技术

使得软硬件不断推陈出新,使算力不断指数级提升,从而满足智

能应用的多元化需求。

(三)数据中心AI算力连接和协同能力不强

在全产业数字化转型的大形势下,新兴技术应用成为算力提

10

升最主要的驱动力,尤其是人工智能带动的AI算力需求。政府、

企业一同建设,集约化不够,利用率有限,成本居高。并且算力

服务器成本居高不下,尤其AI算力服务器。如果建成人工智能

算力数据中心,实现设备网络共享,降低成本,可以发挥我国的

制度和行业优势。如何实现人工智能算力数据中心间互联,分支

边缘算力互联,第三方算力协同互联,AI算力物联终端互联,这

是一个体系化的布局。政策性设计为基础,其中资源匹配、网络

部署、算力对接等都是本课题研究的重点。

(四)数据中心AI算力调度不灵活

在国家碳达峰、碳中和的目标下,实现在不同数据中心间算

力协同调度、削峰填谷、精细化能耗控制的要求。算力的灵活调

度尤为重要。数据每丢失千分之一,吞吐量就会下降50%,浪费

算力资源。一方面,对网络提出要求,尽量实现无损网络。另一

方面,通过自动混合并行、全局内存管理、可视化调优以及分布

式推理等核心技术,强化对人工智能网络的灵活调度,以提升人

工智能算力数据中心的调度协同水平。

二、分层看2

(一)数据中心选址问题(L0层)

新建或改扩建的人工智能算力数据中心位置,一方面受地方

政府规划局限,另一方面还要考虑当地政府对PUE3等的绿色环保

2人工智能算力数据中心分层布局详见第三章第二部分人工智能算力数据中心架构。

3PowerUsageEffectiveness的简写,是评价数据中心能源效率的指标,是数据中心消耗的所有能源与IT负载消

耗的能源的比值。PUE=数据中心总能耗/IT设备能耗,其中数据中心总能耗包括IT设备能耗和制冷、配电等系

统的能耗,其值大于1,越接近1表明非IT设备耗能越少,即能效水平越好。

11

要求。当前人工智能算力数据中心的建设现状主要为政府主导建

设和头部企业自行建设。为加快推动数据中心绿色高质量发展,

建设全国算力枢纽体系,落实国家“东数西算”工程,统筹围绕

国家重大区域发展战略,根据能源结构、产业布局、市场发展、

气候环境等,建议人工智能算力数据中心在国家枢纽节点布局建

设,发展数据中心集群,引导数据中心集约化、规模化、绿色化

发展。国家枢纽节点之间进一步打通网络传输通道,提升跨区域

算力调度水平。

(二)能耗及供电问题(L1层)

人工智能算力数据中心远远高于一般数据中心对于电力能

耗的需求,需要向当地电力供应部门申请电力配额,以解决供电

等突出问题。另外,传统数据中心在改扩建过程中,传统机柜电

力不足以支撑能耗巨大的AI算力服务器,需要液冷等更高能效

的设备,在提升算力的同时降低对电力能耗的需求。对已建成的

传统业务设施改扩建过程,为确保金融业务的平稳过渡和无缝衔

接,需要经验丰富的公司执行。

(三)AI算力底座与周边设备及网络的问题(L2层)

人工智能、HPC(HighPerformanceComputing,高性能计算)、

元宇宙等新兴应用需要大量数据吞吐和运算能力,GPU(Graphics

ProcessingUnit,图形处理单元)随着性能的提升,功耗也在

显著提升,服务器等IT设备,特别是AI服务器的功耗呈上升趋

势(AI服务器单台能耗甚至要突破10kW),数据中心面临能耗

12

和散热的挑战。通过云网融合,整合云、数据中心资源和优质网

络资源,把连接和计算整合在一起,从而提升AI算力水平,攻

克“数据上不来,算力下不去”的难题。

(四)支持不同业务场景的AI应用问题(L3层)

AI框架及主流框架纷繁多样,金融机构需要时间提升对框

架和工具的使用能力,对金融机构的服务也具有一定挑战。在设

计具体场景的AI业务软件系统时,由于开发人员缺少相关标准

和应用接口的参考,因此对特定行业计算系统的适应性、可裁剪

性、可伸缩性等细节特性的考虑不充分,缺少在各种严苛条件下

系统的可靠性、可服务性以及对整体软硬件系统性能影响的考虑,

这就加大了AI算力业务落地的成本。

13

第三章建设指引

数据中心AI算力指标包含4大核心要素:通用计算能力、

高性能计算能力、存储能力、网络能力。数据中心AI算力的建

设应满足3大要求:一是AI算力建设对电力动力等的要求。二

是数据中心AI算力软硬件技术要求,包括核心AI处理器架构、

AI训练产品性能、集群互联系统能力、AI主流软件适配能力、

软件平台和工具的完备性、主流机器学习和深度学习网络支撑能

力等。三是AI算力和通用算力协同建设及改造指引,包括以AI

算力建设作为主算力的AI计算集群软硬件建设要求,与通用计

算集群、网络及存储集群的软硬件协同建设的要求。

一、人工智能算力数据中心架构

计算是人类能力的延伸,算力的建设与社会的发展需求紧密

结合,在不同历史阶段出现了超级计算中心、云计算数据中心、

人工智能算力数据中心等不同形态的算力基础设施。人工智能算

力数据中心是当前人工智能快速发展和应用所依托的新型算力

基础设施。

(一)总体架构

人工智能算力数据中心借鉴了超级计算中心和云计算数据

中心大规模并行计算和数据处理的技术架构,但以人工智能专用

芯片为计算算力底座。人工智能算力数据中心由基建基础设施、

硬件基础设施、软件基础设施及行业应用等组成。

为了能高效、清晰地对人工智能算力数据中心建设展开研究,

14

把人工智能算力数据中心建设划分成5层,总体架构如图1所

示。

行业应用

软件基础设施

人工智能算力数据中心硬件基础设施

基建基础设施

图1人工智能算力数据中心总体架构

土建层(L0),包括地基和建筑体。

基础设施层(L1),包括IT运行环境、风火水电及运维管

理。

硬件基础设施层(L2),包括AI芯片及服务器等硬件设备。

软件基础设施层(L3),包括应用软件、开发框架、软件平

台和数据。

行业应用层(L4),包括智能识别、智能投顾、智能客服等

金融行业应用。

L0和L1相关度较大,统称为基建基础设施层。

(二)分层布局

人工智能算力数据中心分层布局如图2所示,其中与人工智

能算力建设相关的部分包括基建、硬件及软件基础设施3层。

15

金融行业

智能识别智能投顾智能客服智能营销量化交易智能风控L4

应用

行业算法:AI与金融业务融合金融市场:AI与数据要素流动L3

使能软件

数据管理模型开发自动学习预置算法

软件L3

基础智能诊断数据标注大规模AI训练云边端部署

设施

工基础软件

芯片使能AI开发框架L3

能AI系统软件

云平台资源云化算力调度多租户隔离弹性共享云边端协同

硬件AI计算子系统

中L2

基础存储子系统网络子系统

心GPUTPUNPUASICFPGA

设施

IT运行环境运维管理

基建L1

基础风火水电

设施

规划设计机房土建L0

图2人工智能算力数据中心分层布局

1.基建基础设施层(L0-L1)

基建基础设施层包括人工智能算力数据中心规划设计和为

中心提供空间、电力、水源、冷量、防火等基本条件的机房土建、

风水火电、IT运行环境及运维管理建设等底层设施。

2.硬件基础设施层(L2)

硬件基础设施层是人工智能算力数据中心的核心基础,由AI

计算子系统、存储子系统、网络互联子系统组成,如图3所示。

16

AI计算子系统存储子系统

AI集群基础单元AIAI

集群集群存储

AI服务器供电

硬件基础基础节点

制冷

基础GPUFPGAASICNPU单元单元

设施

网络互联子系统

数据中心交换机数据中心交换机数据中心交换机

图3硬件基础设施架构图

(1)AI芯片。依据承担的功能,AI芯片可划分为训练和推

理芯片。训练芯片涉及海量数据和大规模计算,对算法、精度、

处理能力要求非常高,当前仅适合在中心端部署。推理芯片更加

注重综合能力,包括算力能耗、时延、成本等因素,支持计算机

视觉、视频处理、自然语言处理和搜索推荐等推理应用场景,可

部署在中心端、边缘或终端侧。目前GPU、NPU(Neuralnetwork

ProcessingUnit)、FPGA(FieldProgrammableGateArray)、

ASIC(ApplicationSpecificIntergratedCircuits)等是AI

芯片行业的主流技术路线。

(2)AI计算子系统。AI计算子系统一般由高密度、集成化

机柜式设计的集群基础单元组成,每个集群基础单元包括若干AI

服务器,每台AI服务器均搭载AI芯片,在芯片和服务器之间通过

互联网络传递人工智能网络模型的梯度参数更新等数据。各集群

基础单元可支持约40kW的散热功耗,实现低PUE数据中心能源效

率。

17

(3)存储子系统。存储子系统提供高性能、高可靠、高扩

展性和易备份的分布式存储。存储子系统部署存储节点,提供对

象存储、块存储等存储服务,为人工智能训练平台提供高吞吐,

大带宽的样本原始数据。

(4)网络互联子系统。网络互联子系统为整个AI硬件基础

设施层各子系统间提供互联互通支撑。

3.软件基础设施层(L3)

软件基础设施层包含基础软件、AI使能4软件、行业算法和

AI市场,如图4所示。

行业算法:AI与行业业务融合AI市场:AI与数据要素流动

使能软件

数据管理模型开发自动学习预置算法

软件

基础智能诊断数据标注大规模AI训练云边端部署

设施

基础软件

AI系统软件芯片使能软件AI开发框架

云平台资源云化算力调度多租户隔离弹性共享云边端协同

图4软件基础设施架构图

(1)基础软件

(a)芯片使能软件。芯片使能软件构建于AI芯片驱动层之

上,是人工智能软件加速库(算子)集合,为深度学习提供必不

可少的计算优化功能。各大芯片厂商都推出了针对自身芯片进行

优化的使能库,如对于以GPU和NPU为基础的两类AI芯片,其

4使能,其英文为“Enable”,使能软件是增强原有系统或基础软件能力的一种软件,使其具备更多新的能力。

18

芯片使能软件的代表分别是CUDA(ComputeUnifiedDevice

Architecture,计算统一设备架构)和CANN(Compute

ArchitectureforNeuralnetworks,神经网络计算体系结构)。

(b)AI开发框架。AI开发框架封装卷积运算、激活函数、

损失函数计算、优化器使用等基本操作,提供人工智能网络模型

开发环境。主流AI开发框架包括MindSpore、TensorFlow、

PyTorch和PaddlePaddle等。

(c)云平台。基础软件中还包括云平台,对计算、存储及

网络资源进行统一调度和管理,提供统一的算力支持。

(2)使能软件

人工智能算力数据中心面向大规模分布式模型训练、全流程

人工智能应用支撑,需要对大规模算力资源进行管理和调度。

使能软件基于硬件基础设施的组网特点实现对算力资源的

统一管理、调度和监控,进行细粒度的资源实时分配,支持海量

任务的智能自动调度、任务管理、数据加载和预处理,支持大规

模人工智能计算场景,并能够提供丰富的人工智能场景应用和

API服务,使用户能够在该平台上进行一站式人工智能开发和应

用部署。

软件API服务主要包括提供智能语音语言类和计算机视觉

服务。智能语音语言类服务主要提供语音识别、语音合成、声纹

识别、语音听转写等在线服务,计算机视觉类服务主要提供物体

检测、人脸识别、人脸检测、图像识别、光学字符识别等服务。

19

产业侧使能软件包括华为的modelArts、百度的AIstudio、

第四范式的sageEE、寒武纪的CAIP算力平台、新华三的傲飞

AMPHA、亚马逊的AWSsageMaker等。

(3)行业算法和AI市场

行业算法通过行业知识的积累,预置各样经验,从而更快、

更高效地为行业赋能。AI市场则支持数据和AI模型的有效流动

和共享。

二、基建基础设施层(L0-L1)

在数据中心选址方面,除符合国家标准GB50174的4.1.1、

4.1.2和附录A中选址相关技术要求和使用需求外,还应符合

JR/T0265中7.2规划及布局的基本要求。

在数据中心环境、建筑与结构、空气调节、电气、电磁屏蔽、

网络与布线系统、智能化系统、给水排水、消防与安全方面,除

符合国家标准GB50174第5章至第13章及附录A相关技术要

求外,还应符合JR/T0265中第7.3章节至7.11章节的基本要

求。

三、硬件基础设施层(L2)

(一)AI芯片

1.AI芯片架构

(1)应采用适合的AI芯片架构,提供高AI算力和能效比。

(2)应支持高速互联技术。

(3)应支持高度集成化、模块化和冗余设计。

20

2.AI加速芯片

(1)应支持专用的矩阵乘法运算加速单元和向量乘加运算

加速单元。

(2)应支持片上配备高速缓存,加速数据存取与多核通信。

(3)应提供FP32、FP16、TF32浮点运算精度。对于推理

卡,FP32不小于20TOPS或FP16不小于250TOPS;对于训练卡,

FP32不小于64TFLOPS或FP16不小于280TFLOPS,TF32宜不小

于128TFOPS。

(4)推理卡应具备INT8定点运算能力,宜不小于250TOPS。

(5)应支持内存、算力等资源的切分和良好的隔离。

(6)应具有PCIE或OAM接口,以便与主机CPU进行高速数

据传输。

(7)包含专用加解密运算单元,应提供可信的AI运算环境。

(二)AI服务器

AI服务器根据形态可分为通用型AI服务器和模组型AI服

务器,根据功能又可分为AI训练服务器和AI推理服务器。

1.通用型AI服务器

通用型AI服务器需要支持承载不同形态的加速卡的算力需

求,主要采用CPU+AI加速卡为主体的服务器架构。在自主可控

背景的影响下,服务器需要支持AI加速卡,如寒武纪MLU加速

卡,燧原、华为等厂商的GPU加速卡和华为的NPU加速卡。数据

中心训练型AI服务器机型一般建议支持8张双宽GPU卡。推理

21

型服务器根据GPU卡的密度需求不同,数据中心建议使用支持8

张及以上双宽或单宽GPU卡的4U机型,边缘数据中心可选择支

持4张及以上的双宽或单宽GPU卡的2U机型。

2.模组型AI服务器

模组型AI服务器主要目的是为支持多加速卡间互联,从而

获得更高的卡间带宽,提升训练性能。模组型AI服务器主要用

于数据中心的AI训练场景。

(三)AI计算子系统

1.可以实现同一服务器的卡间、跨服务器间的高速数据通信

能力,并进行横向和纵向扩展。

2.有专用的卡间互联高速接口,满足训练和推理过程中卡间

大数据量交换传输的需求。

3.具备常见的分布式集合通信原语实现,支持主流分布式框

架。

4.支持集群通过高速通信协议进行横向和纵向扩展。

5.存储子系统应满足高效AI算力子系统的要求。

6.网卡配置应满足AI算力子系统对带宽、ROCE5及TCP网络等

的需求。

四、软件基础设施层(L3)

(一)芯片使能软件

1.提供基于C和Python语言的算子开发接口,使用户具有自

5ROCE(RDMAoverConvergedEthernet),是在InfiniBandTradeAssociation(IBTA)标准中定义的网络协议,允

许通过以太网络使用RDMA。

22

定义算子开发的能力,如英伟达CUDA、寒武纪bangC/bang

Python、华为CANN等。

2.具备容器镜像部署能力,方便开发生产环境的快速部署。

3.AI产品可以使用k8s进行算力资源的运维管理,并提供AI

产品主要指标的监测能力。

4.提供高性能推理引擎,完备的深度学习调优、调试、监控

工具,加速深度学习模型的开发流程。

(二)AI开发框架

1.开发框架兼容能力

(1)提供AI主流软件适配能力,支持国内外主流深度学习

框架。

(2)宜支持MindSpore、TensorFlow、PyTorch、

PaddlePaddle、Horvod等至少1种深度学习或分布式框架。

(3)宜支持麒麟、CentOS等至少1种国内外操作系统。

2.主流机器学习和深度学习支撑能力

支持常见的视觉分析、NLP和语音识别功能。视觉分析宜支

持resnet50、yoloV5等神经网络,NLP宜支持bert、Transformer

等神经网络,语音识别宜支持tacotron2、waveRNN、FlySpeech

等神经网络。

(三)使能软件

1.数据接入

数据接入是人工智能开发平台的基础环节,根据项目需求,

23

平台按照不同方式接入不同类型的数据,并在此基础上开展后续

环节。主要功能包括:

(1)支持接入不同类型的数据,包括结构化数据(如数据

库表)和非结构化数据(如文本、图像、视频及音频等格式)。

(2)支持本地数据接入、各类接口协议接入等数据接入方

式。

(3)支持接入数据的参数配置。

2.数据预处理

经过清洗、转换等操作,数据预处理部分可以解决数据可能

存在的质量问题(如不一致、无效、缺失、重复等),将数据加

工为模型开发能够直接使用的形式,并在此基础上开展后续环节。

主要功能包括数据清洗(如去重、异常值检测、缺失值填充等)、

数据转换、数据增强。

3.数据标注

数据标注是认知数据特征的重要过程,标注质量与模型效果

息息相关,平台应提供面向不同类型数据(如文本、图像、视频

及音频等)的人工标注及自动标注工具,并提供可灵活扩展的团

队标注和智能标注模式。

4.数据管理

数据管理是人工智能开发平台的支撑环节,平台应支持用户

对其权限内的数据进行统一管理,并以数据集的形式服务于后续

环节。主要功能包括:

24

(1)支持创建、删除、修改、查看及导出等数据集操作。

(2)支持数据集信息展示和查询,如名称、原始数据、标

注信息、标签等。

(3)提供权限与版本管理、拆分与合并等数据集管理功能。

5.数据分析

数据分析支持使用统计方法分析数据并提取有效信息,及时

发现数据特征或分布上的问题,从而有针对性地优化处理。主要

功能包括:

(1)不同类型的数据预览,如结构化、半结构化、非结构

化的数据。

(2)数据集分析,如结构化数据的质量分析、特征分析,

非结构化数据的特征分析。

6.特征工程

特征工程是从原始数据或者预处理后的数据中提取、变换为

更易解决问题的特征数据的过程,旨在去除数据中杂质和冗余量。

特征工程是传统机器学习中尤为重要的一个环节,直接影响到最

终模型结果。

7.模型开发

模型开发为开发者提供一个便捷的开发环境,使用户更加聚

焦在模型本身的设计上。本模块中集成AI框架,免去繁琐的安

装配置过程。针对不同层次的开发者,开发环境采用更加人性化

的操作接口,如拖拽式的可视化建模环境、JupyterLab、命令行

25

建模等,也可帮助用户完成模型脚本在线编辑。主要功能包括:

(1)支持主流的传统机器学习框架(库)、深度学习框架,

及深度学习预训练模型。

(2)针对不同层次用户提供多种建模方式,如交互式编码、

可视化建模等。

8.模型训练

模型训练是按照既定的训练规则,通过训练数据集来完成算

法实例化的过程。训练过程中,根据业务需求提供不同的训练模

式,包括单机训练和分布式训练。平台对用户屏蔽算力设施的底

层复杂组网和配置,通过简易的设置即可实现不同的训练模式。

平台支持多种训练加速手段。整个训练过程有可视化指标形式呈

现。主要功能包括:

(1)支持单机、分布式训练。

(2)支持GPU、国产化等多种异构计算加速芯片。

(3)训练过程中计算、内存等资源使用情况的可视化呈现。

(4)训练过程中模型精度等关键指标可视化跟踪。

(5)支持创建、启停、删除、修改及查询等训练任务操作。

9.模型评估

模型评估是通过既定的各类AI任务评估指标,对训练生成

的模型进行质量评判,生成详细的评估报告,选择出符合要求的

模型用于后续环节。模型评估提供可视化的图表形式呈现不同模

型版本的指标对比,使用户能快速分辨出模型优劣。同时,模型

26

评估对于分析模型对数据特征的偏好、模型的可解释性等方面也

有指导意义。主要功能包括:

(1)针对待评估模型生成评估报告。

(2)常用模型如图像分类、目标检测等的评估指标。

(3)模型指标的历史版本评估结果比较。

(4)评估指标的可视化呈现,如精度、资源占用等指标。

10.模型管理

模型管理是针对已有的模型,提供模型的导入导出、查询检

索、版本管理、模型格式转化等功能,支持主流的模型格式。对

于一些资源紧张的部署环境,提供模型压缩功能来降低模型的资

源消耗。主要功能包括:

(1)导入、查询、修改及删除等与模型文件存储相关的基

本操作。

(2)支持ONNX、TensorFlow、PyTorch等业界主流模型格

式。

(3)支持不同模型格式的转化。

11.模型部署

模型部署是按照一定的编排规则,将模型部署到生产环境中,

对外提供智能服务。根据具体业务需求,可将模型部署在云端、

边缘侧或终端侧等不同位置。利用云计算平台提供的基础功能,

可实现AI模型的平滑升级、灰度测试、根据业务流量弹性伸缩

模型实例等功能。主要功能包括:

27

(1)支持容器镜像部署方式。

(2)支持部署为在线服务,如REST、gRPC接口。

(3)支持部署为批量推理服务。

(4)支持模型灰度发布及AB测试。

12.模型推理

模型推理是对用户调用模型服务接口返回执行结果的过程,

是发挥模型价值的环节。平台应分配相应的计算资源,运行模型

并输出结果。主要功能包括:

(1)宜支持TensorFlow、PyTorch、MindSpore、

PaddlePaddle中两种以上框架训练所得模型的高性能推理部署。

(2)推理服务管理操作,如任务启动、停止,服务的限流、

负载均衡等。

(3)推理服务的接口信息查询和展示,如版本、实例数、

接口格式等。

(4)推理服务的使用情况统计,如运行状态、调用量、成

功率等。

13.资源管理

AI平台底层对基础设施如计算、存储、网络等资源进行管理

和配置,为AI的推理和训练场景分配资源和运行环境。主要功

能包括:

(1)支持异构加速资源的调度,如GPU、国产加速卡等。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论