




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS35.240
CCSL70
团体标准
T/CESAXXXX—202X
面向异构计算的数据质量要求
Dataqualityrequirementsforheterogeneouscomputing
(征求意见稿)
在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。
已授权的专利证明材料为专利证书复印件或扉页,已公开但尚未授权的专利申请
证明材料为专利公开通知书复印件或扉页,未公开的专利申请的证明材料为专利申请
号和申请日期。
202X-XX-XX发布202X-XX-XX实施
中国电子工业标准化技术协会发布
T/CESAXXXX—202X
面向异构计算的数据质量要求
1范围
本文件规定了针对异构智能计算训练场景的数据质量的要求,包含智能计算训练过程的输入数据质
量要求和输出数据质量要求。
本文件适用于异构智能计算训练场景中的数据准备和数据评估。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T35273信息安全技术个人信息安全规范
GB/T41867-2022信息技术人工智能术语
3术语和定义
下列术语和定义适用于本文件。
3.1
异构计算heterogeneouscomputing
一种计算方式,它使用可由具有不同类型指令集和体系架构的计算单元组成的独立的或分布式系统
进行计算。
注:常见的计算单元类别包括CPU、GPU、NPU、DSP等处理器以及ASIC、FPGA等芯片。
3.2
深度学习deeplearning
通过训练具有许多隐层的神经网络来创建丰富层次表示的方法。
注:深度学习是机器学习的一个子集
[来源:GB/T41867-2022,3.2.27]
3.3
异构智能计算heterogeneousintelligentcomputing
一种面向深度学习任务的异构计算范式,涉及到在不同类型指令集和体系架构的计算单元上进行深
度学习相关的计算任务。
3.4
原始数据rawdata
为训练所使用和存储的未经处理的数据。
1
T/CESAXXXX—202X
注:原始数据可以包括多种形式,例如视频数据、图像数据、音频数据和文本数据以及它们的组合。
3.5
标签label
对于原始数据的一个或多个特性的具体描述,以指定模型的上下文,从而允许训练得到的模型做出
准确的预测。
3.6
结构化数据structureddata
行数据,可以用二维表结构来逻辑表达实现的数据。
3.7
非结构化数据unstructureddata
不方便用数据库二维逻辑表来表现的数据。
注:常见的非结构化数据包括文本、语音、图片、图像等。
3.8
输入数据inputdata
指用于智能计算的训练过程的输入数据,通常为对于多源异构数据经过处理后的数据集。
3.9
输出数据outputdata
指经过智能计算的训练过程得到的模型。
3.10
数据集dataset
对原始数据进行统一预处理的数据集合,每项数据可能还包括其对应的标签。
3.11
模型model
经过训练后得到的神经网络数据,它包括网络结构和权重参数,能够对于预期任务进行预测。
3.12
攻击者attacker
试图损害、破坏深度学习的训练过程或未经授权访问、篡改训练模型的个人或组织。
3.13
脏标签投毒攻击dirtylabelpoisonattack
一种攻击方式,攻击者通过恶意篡改数据的标签并与干净的数据混为一体进行训练来达到攻击的目
的。
3.14
干净标签投毒攻击cleanlabelpoisonattack
2
T/CESAXXXX—202X
一种攻击方式,攻击者通过精心设计恶意数据并添加到训练数据中来达到攻击的目的。
3.15
数据后门投毒攻击databackdoorpoisonattack
一种攻击方式,攻击者修改原始训练数据集的单个特征或小区域,然后将其作为后门嵌入模型中来
达到攻击目的。
3.16
对抗样本攻击adversarialexampleattack
一种攻击方式,攻击者在原始样本中添加肉眼不可见或在经处理不影响整体的肉眼可见的细微扰
动,致使训练好的模型以高置信度给出与原样本不同的分类输出。
4数据质量概述
多源异构智能计算场景下,训练过程的数据主要分为输入数据和输出数据。数据质量应符合表1要
求。
表1面向异构计算的数据质量要求
数据阶段质量要求
1)准确性要求
2)完整性要求
3)一致性要求
输入数据4)可访问性要求
5)隐私性要求
6)安全性要求
7)可溯源性要求
1)准确性要求
2)完整性要求
3)可访问性要求
输出数据
4)隐私性要求
5)安全性要求
6)可溯源性要求
5输入数据质量要求
5.1准确性要求
输入数据的准确性符合以下要求:
a)对于描述客观真实世界或信息的场景,数据应是来自真实世界的异构数据或基于真实世界的异
构数据采用数据增强等技术生成的异构数据;
b)对于结构化数据,数据中的数据值应处于预期的区间内;
c)对于非结构化数据,数据中存在的噪声不应对数据的分布产生偏移的影响;
3
T/CESAXXXX—202X
d)若每项数据存在对应的标签,标签的准确度应该大于99.9%;
e)数据中应避免包含重复的数据元素。
5.2完整性要求
输入数据的完整性符合以下要求:
a)对于结构化数据,针对具体训练任务需要的数据项应完整;
b)针对具体训练任务,若每项数据存在标签,标签应完整。
5.3一致性要求
输入数据的一致性符合以下要求:
a)对于结构化数据,不同数据元素中相同数据项的数据格式应当一致;
b)对于非结构化数据,同类数据中的数据格式应当一致。
5.4可访问性要求
输入数据的可访问性符合以下要求:
a)输入数据应当能够被预期用户所访问;
b)输入数据应当能够被预期设备所访问。
5.5隐私性要求
输入数据的隐私性符合以下要求:
a)对于结构化数据,输入数据不应包含确切能推断出具体用户身份的内容,包括但不限于姓名、
身份证号、手机号、卡号、客户号信息等;
b)对于非结构化数据,对于具体训练任务和法律法规明确要求进行保护的内容,输入数据不应直
接包含这些内容,应采用包括但不限于加密、数据脱敏等隐私技术对于这些内容进行保护;
c)对于模态异构的数据,不应包含可通过不同模态间数据组合的方式推断出具体用户身份的内容
或其它对于具体训练任务明确要求进行保护的内容。
5.6安全性要求
输入数据的安全性符合以下要求:
a)输入数据的使用过程应确保合规,即对于异构数据的采集、使用和传输应符合相关法律法规的
要求,涉及个人信息应遵守GB/T35273的要求;
b)应根据安全策略,采取口令、权限管理等技术措施,对输入数据进行安全保护;
c)输入数据的内容应确保合规,即异构数据中不应包含非法、恶意的数据内容;
d)对于独立同分布的输入数据,数据之间不应出现特征分布偏移的情况;
e)对于非独立同分布的输入数据,当数据之间存在特征分布的偏移时,不同的特征分布均应符合
真实情况,不应出现伪造的数据特征分布;
f)对于非独立同分布的输入数据,当数据之间存在标签分布的偏移时,不同的标签分布均应符合
真实情况,不应出现伪造的数据标签分布;
g)对于非独立同分布的输入数据,当数据中出现标签相同特征不同的数据时,不同的特征均应符
合真实情况,不应出现伪造的数据特征;
h)对于非独立同分布的输入数据,当数据中出现特征相同标签不同的数据时,不同的标签均应当
符合真实情况,不应出现伪造的数据标签;
4
T/CESAXXXX—202X
i)应对输入数据进行质量检测和过滤,防止数据投毒攻击,包括脏标签投毒攻击、干净标签投毒
攻击、数据后门投毒攻击等。
5.7可溯源性要求
输入数据的可溯源性符合以下要求:
a)异构数据的来源应当明确,以支持根据数据追溯到该数据对应的数据提供方;
b)如异构数据中包含数据标签,数据标签的来源应当明确,以支持根据数据标签追溯到对应的标
签标定方。
6输出数据质量要求
6.1准确性要求
输出数据的准确率应当达到任务的预期精度,任务的预期准确率由具体场景和任务而定。
6.2完整性要求
应采取加密存储、访问控制等措施,保护输出数据的模型的结构和参数不被攻击者非法篡改。
6.3可访问性要求
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司考勤跟薪资管理制度
- 公司自助式食堂管理制度
- 护理授课课件制作
- 公司账务卡一致管理制度
- 公司车辆及物品管理制度
- 写字楼物业食堂管理制度
- 出租车公司技术管理制度
- 分公司工会会员管理制度
- 分公司账务核算管理制度
- 化工公司催化剂废料管理制度
- 物业服务外包合同
- 企业注销登记申请书(适用于公司、非公司企业法人、合伙企业、个人独资企业)
- NBT 33015-2014 电化学储能系统接入配电网技术规定
- GB/T 44260-2024虚拟电厂资源配置与评估技术规范
- 《微动探测技术规程》
- 【经济法学】2024年国家开放大学春季期末考试真题及答案
- 国家开放大学本科《理工英语4》一平台机考第三大题阅读理解选择总题库
- 2024年四川省乐山市中考生物试卷附答案
- 助贷贷款服务合同范本
- JBT 14543-2024 无刷稳速直流电动机技术规范(正式版)
- 2023-2024学年广东省广州市荔湾区八年级物理第二学期期末学业水平测试模拟试题及答案解析
评论
0/150
提交评论