信息安全技术 人工智能计算平台安全框架_第1页
信息安全技术 人工智能计算平台安全框架_第2页
信息安全技术 人工智能计算平台安全框架_第3页
信息安全技术 人工智能计算平台安全框架_第4页
信息安全技术 人工智能计算平台安全框架_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.030

CCSL80

中华人民共和国国家标准

GB/TXXXXX—XXXX

信息安全技术

人工智能计算平台安全框架

Informationsecuritytechnology

—Artificialintelligencecomputingplatformsecurityframework

(征求意见稿)

(本稿完成时间:2023年4月30日)

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。

XXXX—XX—XX发布XXXX—XX—XX实施

GB/TXXXXX—XXXX

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

本文件由全国信息安全标准化技术委员会(SAC/TC260)提出并归口。

本文件起草单位:华为技术有限公司、中国电子技术标准化研究院、中国电信集团有限公司、上海

商汤智能科技有限公司、北京交通大学、北京快手科技有限公司、北京神州绿盟科技有限公司从、北京

数安行科技有限公司、北京数字认证股份有限公司、北京信安世纪科技股份有限公司、北京眼神科技有

限公司、北京银联金卡科技有限公司、北京远鉴信息技术有限公司、公安部第三研究所、公安部第一研

究所、国家工业信息安全发展研究中心、国家信息技术安全研究中心、国家信息中心、国网区块链科技

(北京)有限公司、国网新疆电力有限公司电力科学研究院、国网智能电网研究院有限公司、杭州安恒

信息技术股份有限公司、华控清交信息科技(北京)有限公司、华中科技大学、蚂蚁科技集团股份有限

公司、美的集团(上海)有限公司、南湖实验室、启明星辰信息技术集团股份有限公司、山石网科通信

技术股份有限公司、上海观安信息技术股份有限公司、上海市信息安全测评认证中心、上海燧原科技有

限公司、上海依图网络科技有限公司、深圳大学、深圳市洞见智慧科技有限公司、四川大学、腾讯云计

算(北京)有限责任公司、武汉东湖大数据交易中心股份有限公司、西安交通大学、云从科技集团股份

有限公司、浙江大华技术股份有限公司、郑州信大捷安信息技术股份有限公司、中国科学技术大学、中

国科学院软件研究所、中国科学院信息工程研究所、中国移动通信集团有限公司、中电科网络安全科技

股份有限公司、中国电力科学研究院有限公司

本文件主要起草人:葛小宇、张宇、严敏瑞、许晓耕、张宇光、谷红勋、徐浩、蒋慧、徐浩、王伟、

刘敬楷、落红卫、谷晨、顾杜娟、王星凯、刘玉红、张永强、龚晓燕、杨春林、张亚浩、胡师阳、杨波、

伭剑辉、陈妍、刘军、王宏、杨韬、李美桃、朱倩倩、章恒、赵增振、王栋、杨珂、叶波、杨慧婷、杜

泽旭、刘博、李剑锋、王云河、靳晨、李瑞轩、王号召、彭晋、林冠辰、蔡亚森、葛颂、张磊、陆一凡、

卞超轶、吴疆、何伊圣、谢江、张俊彦、任永攀、梅敬青、鲍敏祺、赵春昊、刘伟丽、彭宇翔、姚明、

陈兴蜀、王启旭、李克鹏、武杨、杜乐、孙想、沈超、蔺琛皓、李军、文良君、刘为华、左晓栋、谢铮

涵、张立武、张严、王蕊、荆丽桦、江为强、郭中元、曹占涛、王晓辉、李道兴

III

GB/TXXXXX—XXXX

引言

在人工智能计算场景中,模型与数据是模型提供方、数据提供方及人工智能应用运行方等关注的核

心资产。人工智能计算平台为模型训练、推理等任务运行提供基础的软硬件资源,对模型和数据等人工

智能核心资产起到至关重要的保护作用。

与传统的通用计算场景不同,人工智能计算场景引入了人工智能技术、人工智能加速处理器架构、

模型资产等新的因素。在考虑人工智能计算平台的安全问题时,需要重点考虑这些新变化带来的影响。

而现有的标准没有考虑这些变化因素,难以直接应用于人工智能计算场景。

本文件将定义人工智能计算平台的安全框架,给出人工智能计算平台的安全功能、安全机制、安全

模块及服务接口。该安全框架一方面能够消减平台成为网络攻击中薄弱环节的风险;另一方面,围绕上

层应用在不同情景中面临的共性问题,能够基于人工智能计算平台的安全功能有效提升人工智能模型、

数据等核心资产在传输、存储、训练、推理等环节中的安全,减少应用方在保护模型和数据安全方面的

重复投入。

IV

GB/TXXXXX—XXXX

信息安全技术人工智能计算平台安全框架

1范围

本文件规定了人工智能计算平台安全框架的安全功能、安全机制、安全模块以及服务接口。

本文件适用于指导人工智能计算平台的设计与实现,也为平台使用方应用人工智能计算平台安全

功能提供参考。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T20272—2019信息安全技术操作系统安全技术要求

GB/T22239—2019信息安全技术网络安全等级保护基本要求

GB/T25069—2022信息安全技术术语

GB/T37939—2019信息安全技术网络存储安全技术要求

GB/T39680—2020信息安全技术服务器安全技术要求和测评准则

GB/T39786—2021信息安全技术信息系统密码应用基本要求

GB/T41867—2022信息技术人工智能术语

GB/T42018—2022信息技术人工智能平台计算资源规范

3术语和定义

GB/T25069—2022、GB/T41867—2022界定的以及下列术语和定义适用于本文件。

3.1

人工智能加速处理器artificialintelligenceacceleratingprocessor

具备适配人工智能算法的运算微架构,能够完成人工智能应用加速运算处理的集成电路元件。

注1:图像处理器、神经网络处理器是典型的人工智能加速处理器。

注2:通用中央处理器不属于人工智能加速处理器。

[来源:GB/T42018—2022,3.8]

3.2

人工智能服务器artificialintelligenceserver

信息系统中能够为人工智能应用提供高效能计算处理能力的服务器。

[来源:GB/T42018—2022,3.5]

3.3

人工智能计算平台artificialintelligencecomputingplatform

1

GB/TXXXXX—XXXX

为人工智能计算任务执行提供各类资源的软硬件系统,由计算、存储、网络等硬件资源或虚拟化资

源以及操作系统、计算加速库、深度学习框架与开发套件等软件资源组成。

[来源:GB/T42018—2022,3.1,有修改]

3.4

人工智能模型artificialintelligencemodel

一种基于输入数据或信息生成推理或预测结果的计算结构。

注:“机器学习模型”是典型的人工智能模型。

[来源:GB/T41867—2022,3.2.11,有修改]

3.5

人工智能核心资产artificialintelligencecoreasset

在人工智能计算场景中对个人、组织或政府具有重要价值的信息与数据,包括人工智能模型、训练

/推理数据集、训练/推理脚本等。

[来源:GB/T25069—2022,3.806,有修改]

3.6

对抗样本adversarialexamples

在正常数据集中通过故意添加细微干扰获得的、可导致人工智能算法模型以高置信度给出与正确

输出有偏差的样本。

3.7

模型萃取modelextraction

通过循环发送数据并查看对应的响应结果,以推测人工智能模型的参数或功能,从而复制出一个功

能相似甚至完全相同的人工智能模型的行为。

3.8

属性推断propertyinference

用公开可见的属性和结构,推理训练数据隐蔽或不完整的属性数据的行为。

3.9

安全功能securityfunction

为实现安全要素的要求,并正确实施相应安全策略所提供的功能。

[来源:GB/T25069—2022,3.8]

3.10

安全机制securitymechanism

实现安全功能,提供安全服务的基本方法。

[来源:GB/T25069—2022,3.11]

3.11

安全模块securitymodule

实现安全机制的可识别区分的组成部分。

2

GB/TXXXXX—XXXX

[来源:GB/T25069—2022,3.815,有修改]

3.12

服务接口serviceinterface

调用安全机制以实现安全功能的特定界面与方法。

4缩略语

下列缩略语适用于本文件。

AI:人工智能(ArtificialIntelligence)

CPU:中央处理器(CentralProcessingUnit)

FPGA:现场可编程逻辑门阵列(FieldProgrammableGateArray)

GPU:图像处理器(GraphicsProcessingUnit)

NPU:神经网络处理器(Neural-NetworkProcessingUnit)

SDK:软件开发工具包(SoftwareDevelopmentKit)

5AI计算平台概述

5.1AI计算平台组成架构

在AI计算场景中,一个典型的AI计算平台组成架构如图1所示,包括:

a)应用使能层:主要包括AI算法框架、开发套件(如SDK等)等软件资源,用于提升AI模型

训练、推理及AI应用开发效率及易用性;

b)基础资源层:数据处理、AI模型训练、AI模型推理等AI计算任务执行所必须的计算、存储、

网络等硬件资源或虚拟化资源,以及操作系统、计算加速库等基础的软件资源。

注:基础资源层包括GB/T42018-2022标准所述的AI平台计算资源。

图1AI计算平台典型组成架构

本文件所适用的AI计算平台为应用于数据中心及边缘场景的计算平台。根据不同场景应用需求,

平台的部署方式、软件栈将有所不同。图1中实线框表示所有场景都需要的组成部分,虚线框表示部分

场景需要的扩展组成部分。

5.2AI计算平台参与方

3

GB/TXXXXX—XXXX

AI计算平台涉及的参与方主要由AI计算平台提供方和AI计算平台使用方组成。其中AI计算平台

使用方包括AI应用提供方、AI数据提供方、AI应用运行方、AI模型提供方等。参与方信息及其业务

活动详见附录A,各参与方业务活动中面临的安全威胁及建议使用的安全功能见附录B。在本安全框架

中,AI计算平台提供方基于AI计算平台使用方的业务活动及安全需求分析,通过缓解AI计算平台自

身面临的安全风险并提供相应安全功能及服务接口,支撑相关参与方缓解其AI核心资产面临的安全风

险。AI计算平台使用方通过调用AI计算平台提供的服务接口,保障AI核心资产传输、存储、训练、

推理全流程安全。

5.3AI计算平台安全风险

AI计算平台的安全风险主要包括以下两类,详细的安全风险描述见附录B:

a)平台自身面临的安全风险:组成AI计算平台的软硬件与其他场景中的软硬件面临相似的安全

风险,如网络传输过程中面临的窃听、篡改等安全风险、数据存储时面临的破坏、窃取、勒索

病毒等安全风险以及面向AI计算平台的非授权访问风险等。此外,AI计算平台由于引入人工

智能技术带来了AI加速处理器、AI模型等新的变化,这些变化因素对软硬件架构、关键资产

等产生了新的安全风险,如针对AI加速处理器的攻击风险、CPU与AI加速处理器间传输风险、

训练框架后门风险等;

b)平台承载的AI核心资产面临的安全风险:AI核心资产部署或存储在AI计算平台中,面临着

AI核心资产窃取及非法篡改、对抗样本攻击、模型萃取攻击等安全风险。

6AI计算平台安全框架描述

6.1安全框架结构

根据5.3所述安全风险,本文件描述的AI计算平台安全框架提供了两类安全功能,分别为平台自

身安全类与AI核心资产保护类,每一类安全功能包含多个具体安全功能,如图2所示。

4

GB/TXXXXX—XXXX

图2AI计算平台安全框架结构图

框架中定义的每一个安全功能由对应的安全机制实现,每一个安全机制由一个或多个具体的安全

模块交互形成。同时,安全机制提供服务接口,供平台使用方使用相关安全功能保护AI核心资产。安

全功能、安全机制、安全模块及服务接口之间的逻辑关系如图3所示。

图3安全框架元素逻辑关系图

5

GB/TXXXXX—XXXX

6.2安全功能

6.2.1平台自身安全功能

AI计算平台自身安全功能旨在为平台使用方提供安全的运算环境,削减平台成为网络攻击中薄弱

环节的风险。平台自身安全功能分为两类,第一类功能为通用安全功能,遵循GB/T20272—2019、GB/T

22239—2019、GB/T39680—2020、GB/T37939-2019等既有标准,削减通用场景下平台软硬件面临的安

全风险;第二类根据AI计算平台中新增的安全威胁及AI应用场景中的差异化需求,定义新增安全功能。

本文件新增定义的安全功能包括可信验证功能、恶意程序检测功能和AI加速处理器故障监测与恢

复功能,各安全功能的作用与目的如下:

a)可信验证功能:对AI计算平台进行完整性度量,包括CPU侧、AI加速处理器侧的固件、软件等,

并支撑平台使用方对度量值进行验证,以检测AI计算平台是否遭受篡改;

b)恶意程序检测功能:监测AI计算平台中为AI训练、推理任务运行开启的虚拟机、容器及其他用

户进程运行状态,检测已知或未知的恶意程序;

c)AI加速处理器故障监测与处理功能:监测AI计算平台中的AI加速处理器资源状态,及时发现故

障并进行恢复处理,保障AI训练/推理任务持续运行。

6.2.2AI核心资产保护

AI核心资产保护旨在保障AI核心资产传输、存储、训练、推理等各环节安全。AI核心资产保护类安

全功能包括运行环境隔离功能、异构算力安全协同功能、AI核心资产加解密功能、AI核心资产完整性校

验功能、训练任务中断恢复功能、推理攻击检测功能和日志验证与审计功能,来支撑实现AI核心资产保

护。各安全功能的作用与目的如下:

a)AI核心资产加解密功能:对AI核心资产在不同计算节点之间流转过程中进行加解密保护,保障

AI核心资产传输、存储过程中的保密性;

b)AI核心资产完整性校验功能:在AI核心资产传输、存储、训练、推理各环节中,对其进行完整

性校验,支撑用户鉴别AI核心资产传输、存储过程中的完整性;

c)运行环境隔离功能:为AI训练、推理等计算任务提供安全隔离的CPU资源、AI加速运算资源、存

储资源等;

d)异构算力安全协同功能:保障AI训练、推理等计算任务均在CPU与AI加速处理器协同构筑的安

全隔离环境中完成,防范AI核心资产在AI训练、推理等计算任务执行过程中遭窃取、篡改;

e)训练任务中断恢复功能:监测并识别训练资源故障,及时保存训练任务上下文状态及AI模型参

数等信息,并在训练资源恢复后,快速恢复训练任务,防范AI模型参数等训练过程数据丢失;

f)推理攻击检测功能:计算推理请求为对抗样本、模型萃取、属性推断等攻击行为的置信度,并

为AI应用提供响应策略;

g)日志验证与审计功能:为平台使用方提供集中化的日志收集与完整性校验服务,支撑其定位安

全问题及审计追溯,该功能同样适用于平台自身操作产生的日志。

6.3安全模块

安全模块在AI计算平台中是以提供特定功能的独立逻辑模块形式出现。在具体实现中,多个实体

模块可实现一个本文件中定义的安全模块,一个实体模块也可能实现多个本文件中定义的安全模块,具

体的实现形态不在本文件中定义。附录A给出了安全模块在AI计算平台架构中的参考分布。

各个安全模块的具体定义与描述见第7章“安全模块”。

6.4安全机制

6

GB/TXXXXX—XXXX

本文件定义的安全机制用于实现AI计算平台安全框架中定义的安全功能,每一个安全机制实现一

个安全功能,包含安全模块间的交互关系与交互流程,以及涉及的服务接口。

各个安全机制的具体描述见第8章“安全机制”。

6.5服务接口

为平台使用方提供应用AI计算平台安全机制的服务接口,保障平台提供的安全功能能够在平台使

用方的业务流程中发挥作用。

各个服务接口的具体描述见第9章“服务接口”。

7安全模块

7.1概述

本章节根据安全模块所属的安全机制进行组织分类,给出了人工智能计算平台中各个安全模块的

具体定义与功能。

7.2AI计算平台自身安全相关安全模块

7.2.1可信验证机制相关安全模块

7.2.1.1可信度量根模块

可信度量根模块具备的功能包括但不限于:

a)发起对CPU侧及AI加速处理器侧固件、操作系统引导程序、操作系统、应用程序等的完整性

度量及信任链传递;

b)保障自身不可篡改。

7.2.1.2度量值管理模块

度量值管理模块具备的功能包括但不限于:

a)接收AI计算平台其他模块报告的度量值;

b)对接收到的度量值进行扩展、存储;

c)支撑AI计算平台完整性度量值的获取、验证等。

7.2.2恶意程序检测机制相关安全模块

7.2.2.1恶意程序检测模块

恶意程序检测模块具备的功能包括但不限于:

a)检测支撑用户训练/推理任务执行的容器或虚拟机,是否存在逃逸异常情况,并产生告警信息;

b)检测平台中开启的进程及文件状态等,判别是否存在勒索病毒,并产生告警信息;

c)检测平台中开启的进程及文件状态等,判别是否存在恶意挖矿程序,并产生告警信息;

d)对其他已知或未知恶意程序进行检测及告警。

7.2.3AI加速处理器故障监测与处理机制相关安全模块

7.2.3.1故障监测模块

故障监测模块具备的功能包括但不限于:

a)监测训练/推理资源的运行状态,如占用率等,并判别异常状态;

7

GB/TXXXXX—XXXX

b)在监测到异常状态时,及时报告故障信息,包括故障类型、范围等。

7.2.3.2故障处理模块

故障处理模块具备的功能包括但不限于:

a)收到故障监测模块上报的故障信息后,能够根据故障处理策略,进行故障处理,包括隔离故障

节点、调度新的训练/推理节点加入集群、重新配置集群通信网络等;

b)向其他模块报告故障信息、故障处理进度信息等。

7.3AI核心资产保护相关安全模块

7.3.1AI核心资产加解密机制相关安全模块

7.3.1.1加解密模块

加解密模块具备的功能包括但不限于:

a)加解密过程对用户训练/推理脚本透明,无需用户训练/推理脚本做变更适配;

b)对不同用户的不同训练/推理任务涉及的AI核心资产采用不同的数据加密密钥进行加解密;

c)对请求解密的训练/推理脚本进行访问控制,防范AI核心资产被非法访问;

d)与其他请求通信的模块完成双向身份认证;

e)请求密钥管理模块获取数据加密密钥;

f)利用硬件提供的安全防护能力,包括但不限于可信执行环境等,保障加解密过程安全运行;

g)采用的密码算法遵循密码相关国家标准、行业标准。

7.3.1.2密钥管理模块

密钥管理模块具备的功能包括但不限于:

a)提供遵循GB/T39786-2021的全生命周期密钥管理能力,包括密钥生成、存储、导入、备份、

导出、更新、删除等;

b)遵循密钥分层管理机制,逐层加密保护根密钥、密钥加密密钥和数据加密密钥;

c)仅允许密钥属主进行密钥查询、删除、更新等操作;

d)响应其他模块关于数据加密密钥的加/解密请求;

e)与其他请求通信的模块完成双向身份认证;

f)基于安全传输信道传输数据加密密钥;

g)利用硬件提供的安全防护能力,包括但不限于可信执行环境等,保护密钥。

7.3.1.3设备根密钥模块

CPU侧和AI加速处理器侧均存在设备根密钥模块实例,具备的功能包括但不限于:

a)基于硬件安全机制保障设备根密钥不被篡改、非授权访问等;

b)提供接口供用户派生密钥、基于设备根密钥加解密等;

c)保障提供的加解密、密钥派生功能仅能被合法授权访问。

7.3.2AI核心资产完整性校验机制相关安全模块

7.3.2.1完整性校验模块

完整性校验模块具备的功能包括但不限于:

a)能够响应平台使用方请求对AI模型、数据等进行完整性校验;

b)采用的密码算法及完整性校验机制遵循密码相关国家标准、行业标准。

8

GB/TXXXXX—XXXX

7.3.3运行环境隔离机制相关安全模块

7.3.3.1运行环境隔离模块

运行环境隔离模块具备的功能包括但不限于:

a)为不同用户的不同训练、推理任务建立CPU侧安全隔离环境,包括但不限于基于容器的隔离、

基于虚拟机的隔离等;

b)采用技术手段避免资源隔离策略被规避或绕过;

c)安全隔离环境生命周期结束时,清除运行在环境中的AI核心资产。

7.3.3.2AI加速资源安全隔离模块

CPU侧和AI加速处理器侧均存在AI加速资源安全隔离模块实例,具备的功能包括但不限于:

a)为平台使用方分配安全隔离的加速运算单元、内存等AI加速处理器资源;

b)防范平台使用方程序突破资源隔离限制,影响其他应用持续运行。

7.3.4异构算力安全协同机制相关安全模块

7.3.4.1可信度量模块

CPU侧和AI加速处理器侧均存在可信度量模块实例,具备的功能包括但不限于:

a)接收平台使用方请求,对本地安全隔离环境(含组成安全隔离环境的固件、软件和相关数据)

发起完整性度量;

b)向安全管理模块发起请求,获取本地安全隔离环境的完整性度量值;

c)对本地安全隔离环境的完整性度量值进行验证,如发送给远程或本地度量值验证模块进行验

证;

d)能够主动向安全协同的另一侧(CPU侧或AI加速处理器侧)可信度量模块发起完整性度量请

求,请求对安全协同的另一侧安全隔离环境进行完整性度量。

7.3.4.2安全管理模块

CPU侧和AI加速处理器侧均存在安全管理模块实例,具备的功能包括但不限于:

a)按需为安全隔离实体分配计算、存储资源;

b)为本地计算、存储资源进行安全属性初始化;

c)对本地资源进行访问控制策略配置;

d)计算本地安全隔离环境的完整度量值,并响应可信度量模块的度量值获取请求;

e)与安全协同的另一侧安全管理模块协商会话密钥,并将会话密钥存储于安全通信模块中的安全

内存或其他安全存储环境中。

f)采用的密码算法遵循密码相关国家标准、行业标准。

7.3.4.3安全通信模块

CPU侧和AI加速处理器均存在安全通信模块实例,具备的功能包括但不限于:

a)提供密钥存储接口,用于存储会话密钥,保障密钥不出安全存储区域;

b)接受安全管理模块下发的访问控制策略配置或修改;

c)对通信数据进行完整性保护;

d)对通信数据进行加密/解密;

e)对访问请求进行完整性及权限合法性校验,仅允许通过校验的请求访问本地安全隔离环境中的

数据等。

9

GB/TXXXXX—XXXX

f)采用的密码算法及完整性校验机制遵循密码相关国家标准、行业标准。

7.3.5训练任务中断恢复机制相关安全模块

7.3.5.1故障监测模块

故障监测模块具备的功能描述见7.2.3.1。

7.3.5.2故障处理模块

故障处理模块具备的功能描述见7.2.3.2。

7.3.5.3训练任务中断处理模块

训练任务中断恢复具备的功能包括但不限于:

a)在接收到故障处理模块反馈的故障信息后,及时保存训练任务上下文及模型参数等信息;

b)在故障处理模块反馈故障处理完成后,在新的训练节点上,加载训练任务上下文及模型参数等

信息,恢复训练任务。

7.3.6推理攻击检测机制相关安全模块

7.3.6.1AI推理攻击检测模块

AI推理攻击检测模块具备的功能包括但不限于:

a)能够接收来自AI应用转发的推理请求信息,并向其返回AI推理攻击响应策略;

b)对推理请求中所包含的推理样本进行检测,计算其包含数字对抗样本、物理对抗样本、模型后

门触发样本等恶意样本或特征的置信度;

c)基于推理请求所体现的用户推理行为特征,包括请求频率、请求来源、请求分布等,计算本次

推理请求为模型萃取、属性推断等攻击行为的置信度;

d)向AI应用返回攻击响应策略信息,包括但不限于阻断请求、恶意样本告警提示、恶意用户告

警等。

7.3.7日志验证与审计机制相关安全模块

7.3.7.1日志安全管理模块

日志安全管理模块具备的功能包括但不限于:

a)提供接口供各个日志源定期上报日志信息,日志源可以是数据处理、模型训练、模型推理等用

户AI任务以及AI计算平台软硬件资源运行相关日志等;

b)对收到的日志信息进行持久化存储,如有必要还需先对日志进行格式化统一处理;

c)对处理后的日志记录,逐条计算完整性校验信息;

d)能够响应用户发送的日志验证及审计请求,并返回结果信息;

e)提供身份鉴别与访问控制能力,仅对通过身份鉴别与访问控制的用户提供日志验证及审计服

务;

f)采用的密码算法及完整性校验机制遵循密码相关国家标准、行业标准。

8安全机制

8.1概述

10

GB/TXXXXX—XXXX

本章节具体描述了实现各安全功能的安全机制内容,包含安全模块间的交互关系与交互流程,以及

涉及的服务接口,如图4所示。

图4安全机制总览

8.2AI计算平台自身安全相关机制

8.2.1可信验证机制

可信验证机制用于实现可信验证功能,涉及可信度量根模块与度量值管理模块。在AI计算平台中,

CPU侧与AI加速处理器侧分别基于各自的可信度量根模块作为起点逐级执行完整性度量,并逐级将度

量值存储于度量值管理模块。具体实施步骤可参照GB/T366396.1。

该机制不涉及服务接口。

8.2.2恶意程序检测机制

恶意程序检测机制用于实现恶意程序检测功能,涉及恶意程序检测模块。该模块通过接收AI计算

平台中各组件提供的运行状态、日志等信息进行恶意程序检测,识别是否存在虚拟机/容器逃逸、勒索

病毒、挖矿病毒等已知恶意程序。另外,恶意程序检测机制可利用AI计算平台的计算资源使用AI技术

检测其他已知或未知恶意程序。

该机制不涉及服务接口。

8.2.3AI加速处理器故障监测与处理机制

11

GB/TXXXXX—XXXX

8.2.3.1机制概述

该机制概述如下:

a)机制作用目的:实现AI加速处理器故障监测与处理功能;

b)涉及的安全模块:故障监测模块和故障处理模块;

c)涉及的服务接口:故障监测接口和故障处理接口。

8.2.3.2模块交互关系

AI加速处理器故障监测与处理机制涉及故障监测模块与故障处理模块及AI计算平台中的训练/推

理资源之间对接交互,相关模块交互关系如图5所示,同时需为平台使用方提供相关服务接口,进行故

障监测信息、故障处理策略等配置操作。图中的训练/推理资源非本文件定义,因此以灰色背景标识。

图5AI加速处理器故障监测与处理机制涉及的模块交互关系

8.2.3.3模块交互流程

AI加速处理器故障监测与处理机制涉及的模块交互流程如图6所示,模块交互步骤描述如下:

a)故障监测模块持续监测训练/推理资源的运行状态;

b)故障监测模块监测到节点部件或网络等故障后,向故障处理模块反馈故障信息;

c)故障处理模块识别故障类型,根据平台使用方配置的故障处理策略,进行故障处理。

图6AI加速处理器故障监测与处理机制涉及的模块交互流程

8.3AI核心资产保护相关机制

12

GB/TXXXXX—XXXX

8.3.1AI核心资产加解密机制

8.3.1.1机制概述

该机制概述如下:

a)机制作用目的:实现AI核心资产加解密功能;

b)涉及的安全模块:加解密模块、密钥管理模块和设备根密钥模块;

c)涉及的服务接口:密钥管理接口和用户管理接口。

8.3.1.2模块交互关系

AI核心资产加解密机制适用于数据中心内模型训练、推理以及边缘节点推理等多种场景,保障AI

模型等核心资产在不同节点间流转时传输、存储全流程加密保护。涉及的模块包括加解密模块、密钥管

理模块,模块部署调用架构如图12所示。考虑AI模型、数据等可能在训练、测试、推理等不同节点间

流转,为保障数据加密密钥安全分发、流转,建议在训练、推理节点部署密钥管理模块的同时,在独立

的管理节点中部署密钥管理模块。

图7AI核心资产加解密机制涉及的模块交互关系

8.3.1.3模块交互流程

AI核心资产加解密机制涉及的安全模块交互流程如图13所示,交互步骤描述如下:

13

GB/TXXXXX—XXXX

图8AI核心资产加解密机制涉及的模块交互流程

a)平台使用方的训练/推理脚本运行,涉及保存/加载AI核心资产密文操作,触发AI核心资产加/解

密;

b)加解密模块请求训练/推理节点的密钥管理模块获取数据加密密钥;

c)训练/推理节点的密钥管理模块若已经持有数据加密密钥,则直接与加解密模块完成双向身份

认证,并建立安全传输信道;

d)训练/推理节点的密钥管理模块基于安全传输信道,加密传输数据加密密钥,跳转至步骤j);

e)若因AI核心资产跨节点流转等原因,训练/推理节点的密钥管理模块尚未持有数据加密密钥,

则需请求管理节点的密钥管理模块获取数据加密密钥;

f)训练/推理节点的密钥管理模块与管理节点的密钥管理模块完成双向身份认证后建立安全传输

信道;

g)基于安全传输信道,管理节点的密钥管理模块将数据加密密钥传输到训练/推理节点的密钥管

理模块中;

h)训练/推理节点的密钥管理模块与加解密模块完成双向身份认证,并建立安全传输信道;

i)训练/推理节点的密钥管理模块基于安全传输信道,加密传输数据加密密钥;

j)加解密模块基于数据加密密钥为用户训练/推理脚本加/解密AI核心资产。

8.3.2AI核心资产完整性校验机制

AI核心资产完整性校验机制用于实现AI核心资产完整性校验功能,涉及完整性校验模块。该模块

利用遵循密码相关国家标准、行业标准要求的杂凑算法及数字签名算法对AI模型等核心资产进行密码

学运算,从而实现完整性校验。其中,数字签名运算流程可与AI核心资产加解密机制中的加密流程协

同执行;数字签名验签运算流程可与AI核心资产加解密机制中的解密流程协同执行。

该机制不涉及服务接口。

8.3.3运行环境隔离机制

14

GB/TXXXXX—XXXX

8.3.3.1机制概述

该机制概述如下:

a)机制作用目的:实现运行环境隔离功能;

b)涉及的安全模块:运行环境隔离模块和AI加速资源安全隔离模块;

c)涉及的服务接口:无。

8.3.3.2模块交互关系

运行环境隔离机制涉及与AI模型训练/推理节点中既有的用户任务管理模块(如,容器管理组件)、

工作节点资源管理模块(如,容器代理组件)等对接交互,相关模块交互关系如图7所示。图中的用户

任务管理模块非本文件定义,因此以灰色背景标识。

图9运行环境隔离机制涉及的模块交互关系

8.3.3.3模块交互流程

图10运行环境隔离机制涉及的模块交互流程

运行环境隔离机制涉及的安全模块交互流程如图8所示,交互步骤描述如下:

a)资源隔离配置阶段:

1)平台使用方通过任务管理模块请求分配资源隔离的运行环境,任务管理模块收到平台使

用方请求后,向训练/推理节点中的运行环境隔离模块下发资源需求;

15

GB/TXXXXX—XXXX

2)运行环境隔离模块首先分配CPU侧运行资源,构建CPU侧隔离的运行环境(如,容器、虚

拟机等),同时向CPU侧AI加速资源安全隔离模块下发AI加速资源隔离请求;

3)CPU侧AI加速资源安全隔离模块请求AI加速处理器侧AI加速资源安全隔离模块分配基

于硬件隔离的AI加速资源;

4)AI加速处理器侧AI加速资源安全隔离模块根据平台使用方请求的AI加速资源规格,为

平台使用方分配安全隔离的AI加速资源,包括AI加速运算资源、内存资源等;

5)AI加速处理器侧AI加速资源安全隔离模块完成资源分配后,逐步返回资源配置完成消

息,运行环境隔离模块向任务管理模块返回资源配置完成消息,包括CPU侧资源和AI加

速处理器侧资源;

b)资源调度阶段:

1)平台使用方发起AI计算任务运行后,运行环境隔离模块基于已配置的隔离资源为平台使

用方创建训练/推理容器/虚拟机;

2)平台使用方基于容器/虚拟机执行训练/推理脚本,涉及AI加速处理器资源调度时,将由

运行环境隔离模块通过CPU侧AI加速资源安全隔离模块发起请求;

3)CPU侧AI加速资源安全隔离模块向AI加速资源安全隔离模块发起请求,调度并使用AI

加速运算资源、内存资源等。

8.3.4异构算力安全协同机制

8.3.4.1机制概述

该机制概述如下:

a)机制作用目的:实现异构算力安全协同功能;

b)涉及的安全模块:CPU侧、AI加速处理器侧分别存在的可信度量模块、安全管理模块和安全通

信模块,这些安全模块需要和安全隔离实体、度量值验证模块等交互配合;

注1:此处的安全隔离实体可以是虚拟机、容器等多种形态,可通过“运行环境隔离模块”、“AI加速资源安全隔

离模块”建立,非本安全机制重新定义的安全模块;

注2:此处的度量值验证模块可为远程证明服务器或AI计算平台中能够支撑度量值校验的相关功能模块,非本安全

机制重新定义的安全模块;

c)涉及的服务接口:完整性度量接口和安全策略配置接口。

8.3.4.2模块交互关系

异构算力安全协同机制涉及CPU侧与AI加速处理器侧的安全模块交互,具体在CPU侧、AI加速处

理器侧分别涉及可信度量模块、安全管理模块、安全通信模块,模块之间交互关系如图9所示。图中的

安全隔离实体及度量值验证模块非本文件定义,因此以灰色背景标识。

16

GB/TXXXXX—XXXX

图11异构算力安全协同机制涉及的模块交互关系

8.3.4.3模块交互流程

8.3.4.3.1初始化阶段涉及的模块交互流程

异构算力安全协同机制初始化阶段涉及的安全模块交互流程如图10所示,交互步骤描述如下:

图12异构算力安全协同机制初始化阶段涉及的模块交互流程

a)建立CPU侧安全隔离环境:

1)安全管理模块接收平台使用方指令,配置CPU侧计算资源与存储资源及其安全属性,并设

置相应访问控制策略;

2)由可信度量模块向安全管理模块发起完整性度量请求,安全管理模块计算本地安全隔离

环境的完整性度量值后,向可信度量模块返回度量值;

17

GB/TXXXXX—XXXX

3)CPU侧可信度量模块将本地安全隔离环境度量值交由远程或本地度量值验证模块进行验

证,平台使用方收到验证结果,确认CPU侧安全隔离环境可信后,确认建立CPU侧安全隔

离环境;

b)建立AI加速处理器侧安全隔离环境:

1)CPU侧安全管理模块向AI加速处理器侧安全管理模块发起安全隔离环境建立请求;

2)AI加速处理器侧安全管理模块响应请求,配置AI加速处理器侧算力资源与存储资源安全

属性,并设置相应访问控制策略;

3)CPU侧可信度量模块请求对AI加速处理器侧安全隔离环境发起完整性度量;

4)AI加速处理器侧可信度量模块向本侧安全管理模块发起完整性度量请求,本侧安全管理

模块计算AI加速处理器安全隔离环境的完整性度量值后,向本侧可信度量模块返回度量

值;

5)AI加速处理器侧可信度量模块向CPU侧可信度量模块返回度量值;

6)CPU侧可信度量模块将收到的AI加速处理器侧完整性度量值交由度量值验证模块进行验

证,平台使用方确认AI加速处理器侧安全隔离环境可信后,确认建立AI侧安全隔离环

境;

c)形成异构算力协同的安全隔离环境:

1)CPU侧安全管理模块与AI加速处理器侧安全管理模块通过密钥协商协议确立会话密钥,

并分别将会话密钥存储于本地安全通信模块中,支撑CPU侧、AI加速处理器侧的安全隔

离环境之间加密通信。

8.3.4.3.2运行阶段涉及的模块交互流程

异构算力安全协同机制运行阶段涉及的安全模块交互流程如图11所示,交互步骤描述如下:

a)CPU侧向AI加速处理器侧发起访问:

1)CPU侧安全隔离实体根据AI计算任务需求向AI加速处理器侧发起内存读写请求,或下发AI

计算任务;

2)CPU侧安全通信模块根据请求发起方身份信息与权限配置信息判断请求合法性;

3)权限检查通过后,对请求中的信息进行保密性、完整性保护,并将请求发送至AI加速处理

器侧的安全通信模块;

4)AI加速处理器侧安全通信模块检查请求信息的完整性,并根据请求方身份信息与权限配置

信息判断请求合法性,请求信息的完整性及合法性均校验通过后,再解密请求信息并发往

安全隔离实体处理;

5)AI加速处理器侧安全隔离实体根据请求读写相应内存,或将任务写入对应寄存器,并向CPU

侧返回读写结果;

b)AI加速处理器侧向CPU侧发起访问:

1)AI加速处理器侧安全隔离实体根据AI计算任务需求向CPU侧发起内存读写请求;

2)AI加速处理器侧安全通信模块根据请求发起方身份信息与权限配置信息判断请求合法性,;

3)权限检查通过后,对请求中的信息进行保密性、完整性保护,并发送请求;

4)CPU侧安全通信模块检查请求信息的完整性,并根据请求方身份信息与权限配置信息判断

请求合法性,请求信息的完整性及合法性均校验通过后,才解密请求信息并发往安全隔离

实体处理;

5)CPU侧安全隔离实体根据请求读写相应内存,并向AI加速处理器侧返回内存读写结果。

18

GB/TXXXXX—XXXX

图13异构算力安全协同机制运行阶段涉及的模块交互流程

8.3.5训练任务中断恢复机制

8.3.5.1机制概述

该机制概述如下:

a)机制作用目的:实现训练任务中断恢复功能;

b)涉及的安全模块:故障监测模块、故障处理模块和训练任务中断处理模块;

c)涉及的服务接口:故障监测接口和故障处理接口。

8.3.5.2模块交互关系

训练任务中断恢复机制涉及与用户训练环境中既有的训练资源、存储系统、与本文件定义的故障监

测模块、故障处理模块以及训练任务中断处理模块对接交互,相关模块交互关系如图14所示。图中的

训练资源及存储系统非本文件定义,因此以灰色背景标识。

图14训练任务中断恢复机制涉及的模块交互关系

19

GB/TXXXXX—XXXX

8.3.5.3模块交互流程

训练任务中断恢复机制涉及的模块交互流程如图15所示,模块交互步骤描述如下:

图15训练任务中断恢复机制涉及的模块交互流程

a)故障检测及故障信息反馈

1)故障监测模块持续监测用户训练资源的运行状态,包括训练节点内部处理器、内存等部件

的资源占用情况、电源稳定性、温度等以及集群通信网络状态等;

2)故障监测模块监测到节点部件或网络等故障后,向故障处理模块反馈故障信息;

3)故障处理模块识别故障类型,明确故障处理方式,同步向训练任务中断处理模块反馈故障

信息;

b)训练任务中断处理

1)训练任务中断处理模块及时处理训练任务保障其不会立即退出,将训练任务上下文、模型

训练参数等保存到存储系统;

2)完成模型训练参数持久化存储后,向故障处理模块反馈结果;

c)训练资源重新部署

1)故障处理模块收到反馈信息后,退出训练进程,按照故障处理策略,处理故障,恢复训练

资源;

d)训练任务恢复

1)训练资源恢复后,故障处理模块请求训练任务中断处理模块在新的训练资源上恢复训练

任务;

2)训练任务中端处理模块从存储系统中读取步骤d)持久化存储的关键信息,并在新的训练

资源上加载训练任务上下文、已训练的模型参数等,恢复训练任务。

8.3.6推理攻击检测机制

8.3.6.1机制概述

20

GB/TXXXXX—XXXX

该机制概述如下:

a)机制作用目的:实现AI推理攻击检测功能;

b)涉及的安全模块:AI推理攻击检测模块,同时需与AI应用交互配合;

c)涉及的服务接口:响应策略获取接口。

8.3.6.2模块交互关系

AI推理攻击检测机制的作用目的、涉及的功能模块如5.5所介绍。涉及的相关模块交互关系如图

16所示。图中的AI应用相关模块非本文件定义,因此以灰色背景标识。

图16AI推理攻击检测机制涉及的模块交互关系

8.3.6.3模块交互流程

AI推理攻击检测机制涉及的安全模块交互流程如图17所示,交互步骤描述如下:

a)用户发送推理查询请求;

b)AI应用根据从AI推理攻击检测模块获得的推理请求响应策略以及自身维护的访问控制策略等,

判定是否响应该请求;

c)AI应用调用AI推理攻击检测模块提供的服务接口向AI推理攻击检测模块发送推理请求;

d)AI推理攻击检测模块基于用户行为、样本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论