《面向异构计算的数据质量要求编制说明》_第1页
《面向异构计算的数据质量要求编制说明》_第2页
《面向异构计算的数据质量要求编制说明》_第3页
《面向异构计算的数据质量要求编制说明》_第4页
《面向异构计算的数据质量要求编制说明》_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国电子工业标准化技术协会

团体标准《面向异构计算的数据质量要求》(征求意见稿)

编制说明

一、工作简况

1、任务来源

2017年国务院印发《新一代人工智能发展规划》,要求提升新一代人工智能

科技创新能力为主攻方向,构建开放协同的人工智能科技创新体系,2020年国家

标准委等五部门印发《国家新一代人工智能标准体系建设指南》,对人工智能产

业标准体系的构建提出了需求和目标,以推进人工智能产业全面规范化发展。随

着科技的飞速发展,大量的数据被不断生成、收集和存储,这些数据成为了推动

人工智能技术发展的关键资源。然而,数据的核心不在于“大”而在于“质量”,

数据的质量对于人工智能的应用和决策过程具有深远的影响,对于异构智能计算

场景来说更是如此。面对海量的多源异构数据,若不对这些数据的质量进行约束

和评估,将会影响整个异构智能计算的应用流程。

然而,我国目前对于异构计算的数据质量的标准体系并不完善,这使得异构

智能计算的发展受影响,带来异构计算的训练过程后得到的模型精度不理想、模

型存在恶意后门等诸多问题;因此,为规范异构智能计算场景下的数据质量,亟

需定制相关的数据质量标准,以促进人工智能等数据驱动型产业进一步发展。

本团体标准属于国家重大研发计划的国家质量基础设施体系(NQI)专项(项

目号:2022YFF0604500)。

本团体标准任务来源于中国电子工业标准化技术协会(以下简称“中电标

协”)2023年7月10日发布的《2023年第六批团体标准制修订项目的通知》(中

电标通[2023]020号),项目号为CESA-2023-075,标准项目名称:面向异构计算

的数据质量要求,本标准是新制定标准,项目周期12个月。项目牵头单位是南京

大学。

2、标准起草单位

本标准由南京大学、中国电子技术标准化研究院等单位共同起草。

3、主要工作过程

中国电子工业标准化技术协会

2022年10月-2023年3月,南京大学对异构计算场景下数据质量的现状、需求

和问题进行了广泛的前期调研,为标准的编写奠定基础。

2023年3月31日,南京大学与标准起草组内单位进行讨论,结合讨论的意见,

确定了标准的框架和主体内容,并开始撰写标准的草案。

2023年5月26日,南京大学完成了标准草案的初步撰写,并就撰写的草案与

标准起草组内单位进行讨论,重点对标准的范围、异构数据的考虑以及数据质量

的维度进行了讨论。

2023年6月9日,南京大学就修改后的草案与标准起草组内单位进行讨论,重

点对异构计算训练过程的输入数据和输出数据在安全、隐私、可溯源等方面的相

关意见进行了讨论。

2023年6月20日,南京大学完成对相关意见的整合和对草案的修改,形成了

团体标准《信息技术异构计算安全可信数据要求》(草案稿)。

2023年7月4日,由中国电子工业技术协会组织团体标准项目立项论证会,对

《信息技术异构计算安全可信联邦学习系统技术要求》等四项团体标准项目建

议进行了论证,会上建议修改标准名称为《面向异构计算的数据质量要求》后同

意立项。

2023年9月4日,根据中电标协发布的《2023年第六批团体标准制修订项目的

通知》(中电标通[2023]020号)要求,南京大学联合中国电子技术标准化研究

院等单位成立标准编制工作组,召开了第一次标准编制工作会议,策划标准的编

制工作,制定了编制工作任务,着手开展标准的编制工作。

2023年9月5日-2023年9月15日,标准工作组对标准草案进行研讨,初步形成

《面向异构计算的数据质量要求》(征求意见稿)。

2023年9月16日-2023年10月17日,对征求意见稿(初稿)进行再编制、研讨

及完善,形成了《面向异构计算的数据质量要求》(征求意见稿)。

二、标准编制原则和确定主要内容的论据及解决的主要问题

1、编制原则

在标准编制过程中,遵循了以下五方面的原则。

a)符合性。遵循国家法律、法规等相关规定,制定过程严格按照程序

执行。

中国电子工业标准化技术协会

b)先进性。制定过程中充分考虑了异构计算下的数据多分布、多模态

特点,并从数据的安全、可信方面的数据质量进行考虑,具有前瞻性。

c)适用性。本文件充分考虑异构计算下的智能计算的数据使用需求,

并参考了现有的多源异构数据可能存在的数据质量问题。

d)中立性。在本文件制定过程中,编制工作组对标准文本进行了充分

讨论,确保了中立性和客观性。

e)科学性。本文件的指标经过科学合理的设计,试验方法已经经过验

证。

2、确定主要内容的依据

当前,海量的终端设备每时每刻都在产生大量的数据,这为异构智能计算场

景训练出更加优秀的模型提供了良好的基础。然而,这些多源异构数据的数据质

量却参差不齐。目前缺失对于这些多源异构数据的数据质量规范,会存在用于智

能模型训练的输入数据质量低、甚至是存在投毒数据的问题,并导致输出的智能

模型存在模型精度低、包含被恶意植入的后门等,影响整个异构智能计算的应用

流程,阻碍异构智能计算的发展。结合《GB/T36344-2018信息技术数据质量

评价指标》中对于数据质量的评价维度以及现有智能计算的数据在安全性和隐私

性等多方面的质量要求,本标准对于异构计算中的多源异构数据的数据质量进行

要求,规范该场景下的数据质量。

本标准针对异构智能计算训练场景的数据质量的要求,包含智能计算训练过

程的输入数据质量要求和输出数据质量要求。

3、编制过程中解决的主要问题

由于当前国内外没有多源异构智能计算场景下数据质量的相关标准,为此标

准工作组在编制过程中充分吸取了异构计算数据提供方、异构计算数据使用方以

及高校和科研院所对异构计算的数据质量标准的意见,对于解决异构计算场景下

的数据质量标准缺失,保护数据的安全流通共享提供标准依据,推动异构计算场

景下的数据要素市场健康发展,助力形成新的特色产业和国际竞争力。

三、主要试验[或验证]情况分析

在标准制定过程中,标准工作组对标准规定的异构计算的数据质量要求征集

了异构计算数据提供方、异构计算数据使用方的意见,并充分考虑科技发展及应

中国电子工业标准化技术协会

用。从市场符合性分析,本标准规定的技术要求和是合理的,切实给出符合异构

计算场景下的高质量数据的要求。

四、知识产权情况说明

本标准不涉及知识产权问题。

五、产业化情况、推广应用论证和预期达到的经济效果

标准发布后,有助于突破多源异构数据质量的标准化评估技术,构建覆盖多

指标维度的数据评价体系;也可以为智慧教育、智慧医疗等多个典型行业的应用

示范提供高质量数据的技术支撑。

六、转化国际标准和国外先进标准情况

本标准未采用国际标准和国外先进标准。

七、与现行相关法律、法规、规章及相关标准的协调性

本标准编制文本格式按照GB/T1.1-2020的规定起草,与现行相关法律、法

规、规章不矛盾。

本标准引用到的标准包括:

GB/T35273信息安全技术个人信息安全规范

GB/T41867-2022信息技术人工智能术语

八、重大分歧意见的处理经过和依据

标准研制过程中,本标准在立项论证时,多位立项评审专家进行专家质询时,

认为标准名称《信息技术异构计算安全可信数据要求》不足以涵盖标准内容,

建议将名称改为《面向异构计算的数据质量要求》,更能准确体现标准文本的范

围和实质内容,为此提出调整标准名称申请,未变更标准的技术内容。

九、贯彻标准的要求和措施建议

建议列为推荐性标准,在标准发布后尽快组织标准宣贯、试验验证。

十、替代或废止现行相关标准的建议

无需要替代或废止的现行相关标准。

十一、其它应予说明的事项

无。

中国电子工业标准化技术协会

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论