版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS33.020
CCSM10YD
中华人民共和国通信行业标准
YD/TXXXXX—XXXX
面向机器学习的电信数据规范数据质量
Telecommunicationdataspecificationintheperspectiveofmachinelearningdata
quality
报批稿
XXXX-XX–XX发布XXXX-XX-XX实施
中华人民共和国工业和信息化部发布
YD/TXXXX—XXXX
前 言
本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起
草。
本文件是面向机器学习的电信数据系列标准之一,该系列标准结构和名称如下:
——面向机器学习的电信数据规范数据服务接口
——面向机器学习的电信数据规范数据模型
——面向机器学习的电信数据规范数据质量
——面向机器学习的电信数据规范数据安全能力成熟度
——面向机器学习的电信数据规范数据安全能力成熟度评估方法
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
本文件由中国通信标准化协会提出并归口。
本文件起草单位:中国信息通信研究院、中国移动通信集团有限公司、中国联合网络通信集团有限
公司、中国电信集团有限公司、华为技术有限公司、中兴通讯股份有限公司。
本文件主要起草人:程强、刘姿杉、胡雅坤、袁丽雅、李唯源、孟瑜。
II
YD/TXXXX-XXXX
面向机器学习的电信数据规范数据质量
1范围
本文件规定了对电信数据进行质量管理的通用原则、一般流程和评估方法,并对电信数据集在规范
性、完整性、准确性、有用性、一致性、适量性、时效性、可解释性和可靠性等维度相关的指标进行了
定义和示例说明。本文件所定义的电信数据类型主要为结构化数据,不涉及自然语言、图像等非结构化
与其他复杂类型数据。
本文件适用于电信网络运营商、设备商、服务商、软件开发者、最终用户、第三方监管机构、认证
机构或评测单位等来开展面向机器学习应用过程中电信数据的特性和质量评估相关工作,来保证电信数
据集在机器学习应用中的可用性,促进电信领域机器学习应用的开展。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T5271.1-2000信息技术词汇第1部分:基本术语
GB/T5271.17-2010信息技术词汇第17部分:数据库
GB/T35295—2017信息技术大数据术语
3术语和定义
下列术语和定义适用于本文件。
3.1
数据data
信息的可再解释的形式化表示,以适用于通信、解释或处理。
[来源:GB/T5271.1-2000,01.01.02]
3.2
数据集dataset
具有一定主题,可以标识并可以用于机器学习训练、验证及测试等处理过程的数据形式。
3.3
元数据metadata
关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和
数据易变性的数据。
[来源:GB/T5271.17-2010,定义17.06.05]
1
YD/TXXXX-XXXX
3.4
结构化数据structureddata
一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用
关系模型予以有效描述。
[来源:GB/T35295-2017,定义2.2.13]
3.5
数据集质量datasetquality
在指定条件下使用时,数据集的特性满足机器学习算法所需明确和隐含要求的程度。
3.6
数据质量管理dataqualitymanagement
对数据从采集、传输、预处理、存储、处理、应用和销毁生命周期的每个阶段中可能引发的各类数
据质量问题,进行度量、监控、质量问题解决等一系列管理活动。
3.7
数据质量维度datasetqualitydimension
数据满足机器学习应用要求和使用目的的基本质量特性,是一个数据约束的类型,例如完整性、一
致性等。
3.8
数据质量值类型dataqualityvaluetype
对数据质量进行评估的值的类型,例如布尔型变量、百分比、比率等。
3.9
数据标准datastandard
数据的命名、定义、结构和取值规范方面的规则和基准。
3.10
电信数据模型telecommunicationdatamodel
面向机器学习应用,对电信数据特征进行抽象和主题分类,并对数据主题、主要电信主体等相互之
间的关系进行描述。
3.11
数据结构特征structuralfeatureofdata
数据本身的构成遵循一定的准则(例如IP地址有A/B/C/D和特殊分类)。
3.12
2
YD/TXXXX-XXXX
数据统计特征statisticalcharacteristicofdata
与个体或群体相联系的数据所包含的差异性特征(例如极差、标准偏差、变异系数),规律性特征
(例如平均值、中位数、众数等)或具体分布类型以及参数等。
4电信数据质量管理总则
4.1概述
对于面向机器学习的电信数据质量管理总体框架如图1所示。在电信领域进行机器学习应用建设时,
数据提供方或数据服务方应能够识别机器学习应用对于电信数据质量的需求,输出元数据和数据集质量
评测报告,保证一定的电信数据质量。对于电信数据质量的评估,应遵循科学性、客观性、系统性、针
对性和引导性等原则。电信数据集质量管理的一般过程包括定义数据质量需求、建立数据质量评估模型、
评估任务配置、执行数据质量评估、修复数据质量问题和数据质量监控等。面向机器学习的电信数据要
满足的质量需求主要包括规范性、完整性、准确性、有用性、一致性、适量性、及时性、可解释性和可
靠性等维度。为了持续对电信网络中的数据进行全生命周期的质量管理与保障,数据提供方和数据服务
方需要具备一定的数据质量管理关键能力,包括数据分析工具与方法、数据质量准则定义与执行、数据
质量度量办法、数据质量问题根因分析、数据质量可视化等。
数
修据
复质
执质量
评行量监
估质问控
建
任量题
立评
定务
评
义配估
估
可质置
规完准有一适时模
解可量
范整确用致量效型
释靠需
性性性性性性性
性性求
图1电信数据质量评估原则、维度与一般流程
4.2数据质量评估原则
对面向机器学习的电信数据进行质量评估时,应遵循以下原则:
4.2.1科学性原则
数据质量的评估应能正确反映现实电信数据资源的状况以及对于机器学习应用性能的影响。主要体
现在正确的质量指标选择,采用科学合理的评估方法和门限等。另外,科学性还要求数据质量的评估应
计算简单,易于掌控,测量方法能够保持稳定和长期有效。同时,评估不可能穷尽所有因素,而应该选
择与机器学习应用相关性较大的要素。
4.2.2客观性原则
评估应是符合实际、客观可信、过程可监督的。评估指标的选择要有一定的理论和可实施性,不能
够脱离实际应用,应该考虑指标的量化以及目标质量获取的难易程度,应当考虑电信网络的采集环境与
资源条件等。
3
YD/TXXXX-XXXX
4.2.3系统性原则
面向机器学习应用进行数据评估时需要考虑的数据质量因素广泛复杂,应采用多个指标来衡量,个
别质量维度或指标的测量可能无法正确反映数据资源的质量水平,数据的评估应尽可能全面。同时多个
评估指标之间可能是相互联系和相互制约的,每个指标应保持其独立性。因此在选择评估指标时,要考
虑指标的系统性和层级关系,避免指标间冲突。
4.2.4针对性原则
不同机器学习应用对于电信数据质量需求的侧重和敏感程度不同,因此数据质量的评估应当充分考
虑机器学习应用的需求,要在指标的权重和分值上予以区分,以体现质量评估对于不同机器学习应用的
针对性和导向作用。
4.2.5引导性原则
电信数据质量指标的选取应当实现为数据提供方和数据服务方对于数据的取舍提供判断依据,以帮
助在机器学习应用中选择最少量而有效的信息。因此,数据质量的评估应以获取有利于机器学习应用的
信息资源为导向。数据集质量的评估能够保证对不同的数据集在时间上的可比性。
4.3数据质量评估维度
4.3.1概述
参考TR-REC-064,对面向机器学习的电信数据进行质量评估一般是以数据集质量评估的形式来进行,
应至少包含规范性、完整性、准确性、有效性、一致性、适量性、时效性、可靠性等维度。
4.3.2规范性
电信数据集及其元数据符合数据标准、业务准则、元数据、数据模型或权威参考数据的程度。
4.3.3完整性
电信数据集包括数据属性、属性值域和数据关系三个方面,完整性的评估需要涵盖这三个方面。
4.3.4准确性
也可称为精确性,一方面是指数据集内容对数据所指对象的反映,其值域、分布和模型是否准确及
其准确程度;二是数据形式对于数据内容的表述、表达是否准确及其程度。
4.3.5有效性
用于评估数据内容与机器学习应用需求匹配的程度。数据需要具有增值性,尤其是经过脱敏或处理
后的数据,依然可以为机器学习应用提供信息。
4.3.6一致性
用于评估数据集合内各个个体数据之间是否有冲突、或是相同的信息实体是否采用了不同的标识符
号或描述名称、(预)处理前后的信息是否匹配等。
4.3.7适量性
用于评估数据数值和属性的重复、冗余程度、是否有多余的、与需求不符的数据。数据的提供应当
最少量的去满足机器学习应用的需求。信息过量容易导致计算负荷,也会加大数据安全与个人信息泄露
4
YD/TXXXX-XXXX
的数据风险。
4.3.8时效性
用于评估数据集的采集、更新和可用性是否及时、更新是否稳定,是否满足一定的时序要求等。
4.3.9可靠性
数据集在特定环境和用例中被视为真实和可信的程度,通常与数据的来源、数据来源的标注信息是
否齐全、数据资源是否提供了采集背景、网络背景和环境资料,数据的数值、统计特征和分布特点等是
否符合现实经验,经过(预)处理后的数据真实可靠的程度等有关。
4.4电信数据质量管理一般流程
对于面向机器学习的电信数据进行质量管理时,需要包括以下一般流程,如图2所示。数据质量
的评测过程是一个迭代过程,以下过程的先后顺序仅表达阶段活跃的大致顺序。各个过程的先后顺序以
及与电信数据的生命周期之间的关联可以根据实际情况和执行过程的好坏来决定,一些过程可能需要重
复执行来保证电信数据集在机器学习应用中的可用性。
定义数据质量需求
建立数据质量评估模型数据采集、传输
数据评估任务配置数据处理/数据修复
执行数据质量评估
达到门限值?否
应用效果反馈
可用数据集质量评测报告
数据应用
图2电信数据质量管理一般过程
4.4.1定义数据质量需求
从机器学习应用需求、数据源和数据描述等方面挖掘数据质量需求、定义关键数据元素、定义数据
质量评估维度和指标等,此部分可在数据采集之前来进行。
4.4.2建立数据质量评估模型
根据需求对需要评测的电信数据集建立评估模型。对于面向机器学习的电信数据,数据集质量评估
模型的建立应包括以下几个要素:
a)数据集:定义被评估的数据集,通常还需要对描述数据集的元数据进行规定;
b)评估指标:面向机器学习应用的电信数据质量评估指标应按照4.2节所规定的8个维度来进
5
YD/TXXXX-XXXX
行,本规范所规定的评估指标是实施数据质量评估的最小集;
c)评估准则:对每个评估指标,建立对应的评估准则/计算方法、评估值的类型和范围以及对应
的优劣等级等;
d)期望/门限:根据每个评估指标和准则所给出的期望或可接受的值域范围;
e)权重:每条评估指标在全部指标中所占比重。
注:电信数据集质量评测报告可以依照数据质量集评估模型来应用到数据集后来输出计算结果、加权后的结果和报
告结论等。
4.4.3评估任务配置
配置数据集质量评估和处理工具和组织人员等。
4.4.4执行数据质量评估
评估数据集质量、输出评测报告并识别数据质量问题等。
4.4.5数据处理/数据修复
通过对数据集进一步的数据清洗、数据集成和数据规约等处理,对数据进行质量根因分析与确认并
区分这些因素对数据质量影响的级别,通过各种技术工具修复数据质量和消除根因等。
4.4.6数据质量监控
在电信数据全生命周期内持续监控数据质量,根据机器学习应用的反馈来调整评估模型和质量门限,
实现数据质量可视化,并提高数据管理策略和处理流程(可选)等。
4.5机器学习应用下电信数据质量评估方法
面向机器学习应用的电信数据集质量评估需要遵循科学的评估方法,基于机器学习应用需求与数据
集质量目标选取合适的评估指标和相应的评估准则。同时需要根据指标的重要与影响程度对指标制定权
重,从而实现对数据集质量的综合分析。电信数据集的评估主要分为定量、定性以及将前两者有机集合
起来进行综合分析的方法。
4.5.1定量方法
定量方法采用确定的量化公式或计算方法作为评估准则,来提供客观、直观和具体的结果。
4.5.2定性方法
定性方法基于一定的评估准则或要求,根据评估的目的和机器学习应用的需求,从主观的角度对数
据质量进行描述与评估。这一过程仍然需要建立指标体系、确定评估准则和赋值标准,评估结果往往分
为等级制、百分制或布尔表示等。
4.5.3综合方法
综合方法将定性和定量两种方法有机的集合起来,从客观和主观两个方面对数据质量进行评测。例
如,采用层次分析法先主观的将评估对象进行优劣和层级排序,再利用定量的形式对评估主体进行评测,
最后根据层级结构进行加权,得到最终的评测结果。
5机器学习应用下电信数据质量评估指标
6
YD/TXXXX-XXXX
5.1概述
面向不同机器学习应用中电信数据集的评估指标通常不尽相同,本小节所列的指标仅为电信数据集
质量评估适用的质量指标,不强制使用,不保证其完备性,仅供参考使用。针对一次数据集质量评估活
动,仍需按照数据集质量管理类流程来选择评估指标、制定评估准则和设定指标权重等。
5.2规范性
5.2.1元数据规范
元数据便于机器学习应用更便于检索和使用信息。评估数据质量时需要检查对被评估的数据集是否
提供元数据文档。定义为数据符合元数据定义的程度,计算公式为(1):
= / …………(1)
式中:
X——元数据规范,取值范围为[0,1]。 的值越小,说明元数据规范性越差;值越大,说明元数据
规范程度越好;
A——满足元数据定义的数据集元素的数量;
B——被评估数据集中元素的总数量。
5.2.2数据规范
数据符合一定的数据形式标准的度量,例如命名、创建、定义、更新和归档等需要遵循的标准,包
括国际标准、国家标准、行业标准或相关规定等,计算公式为(2):
= / …………(2)
式中:
X——数据规范程度,取值范围为[0,1]。 的值越小,说明数据规范性越差;值越大,说明数据规
范性越好;
A——满足数据规范要求数据集元素的数量;
B——被评估数据集中元素的总数量。
5.2.3安全规范度
数据在安全和个人信息保护方面满足规范要求的程度,包括安全和个人信息保护等级、数据权限管
理等,计算公式为(3):
= / …………(3)
式中:
X——数据安全规范程度,取值范围为[0,1]。 的值越小,说明安全规范性越差;值越大,说明安
全规范性越好;
A——满足安全规范要求的数据集元素的数量;
B——被评估数据集中元素的总数量。
5.2.4权威参考
被评估数据集满足一定参考数据规则的程度。其中参考数据可以是以往用于机器学习应用的脱敏数
据集/训练数据集、符合相关规定的正确数据列表或其他可用来参考对比的数据,例如一张用于特定字
段的有效值列表。权威参考的计算公式为(4):
= / …………(4)
式中:
7
YD/TXXXX-XXXX
X——权威参考程度,取值范围为[0,1]。 的值越小,说明权威参考性越低;值越大,说明越能符
合权威参考规则;
A——满足安全规范要求的数据集元素的数量;
B——被评估数据集中元素的总数量。
5.3完整性
5.3.1元数据完整性
对数据集所提供的元数据的完整程度,计算公式为(5):
= / …………(5)
式中:
X——元数据完整度,取值范围为[0,1]。 的值越小,说明元数据完整性越差;值越大,说明元数
据完整性越好;
A——满足规定的元数据元素数目;
B——元数据的元素总数目。
5.3.2属性完整性
按照一定的应用需求或规则要求,数据集中应包含的数据条目/属性完整程度,计算公式为(6):
= / …………(6)
式中:
X——属性完整性,取值范围为[0,1]。 的值越小,说明属性完整性越差;值越大,说明属性完整
性越好;
A——满足属性定义规则的数据集元素数量;
B——被评估数据集中元素的总数量。
5.3.3元素完整性
按照一定的应用需求或规则要求,数据集中数据的赋值完整程度,计算公式为(7):
= / …………(7)
式中:
X——元素完整性,取值范围为[0,1]。 的值越小,说明元素完整性越差;值越大,说明元素完整
性越好;
A——被正确赋值的数据集中元素的数量;
B——预期被赋值的数据集元素的总数量。
5.4准确性
5.4.1数据格式准确性
数据格式、语法(例如数据类型、数据长度)是否满足预期要求,例如IP地址长度是否正确,计算
公式为(8):
= / …………(8)
式中:
X——数据格式准确性,取值范围为[0,1]。 的值越小,说明数据格式准确性越差;值越大,说明
数据格式准确性越好;
A——满足一定的数据格式要求的数据集元素数量;
8
YD/TXXXX-XXXX
B——被评估数据集中元素的总数量。
5.4.2数据内容准确性
数据内容、值域是否符合预定义的规范或范围,例如用户的移动性数据满足拓扑和速度的限制、端
到端时延不能超出合理的范围等,计算公式为(9):
= / …………(9)
式中:
X——数据内容准确性,取值范围为[0,1]。 的值越小,说明数据内容准确性越差;值越大,说明
数据内容准确性越好;
A——满足一定的数据内容要求的数据集元素数量;
B——被评估数据集中元素的总数量。
5.4.3脏数据占比
对正确字段、记录、文件或数据集之外无效数据的度量,例如电信网络GPS定位失败导致的位置信
息错误,计算公式为(10):
= / …………(10)
式中:
X——脏数据占比,取值范围为[0,1];
A——数据集的脏数据元素数量;
B——被评估数据集中元素的总数量。
5.5有效性
5.5.1信息熵
被评估数据集每个类别的数据带来的信息量,计算公式为(11):
…………(11)
( )=−∑ =1 log2
式中:
——数据集被评估的数据类别;
( )——信息熵,取值范围为[0,log2( )]。
—— 的取值数量
( )——元素值为 的概率;
5.5.2样本均衡性
数据集(一般为已标注数据集)中正负样本的均衡程度,计算公式为(12):
= / …………(12)
式中:
X——样本均衡程度,取值范围为[0,∞)。值越接近于1,说明正负样本比例越均衡;
A——数据集中的正样本数目;
B——数据集中的负样本数目。
5.6一致性
5.6.1数据元素一致性
9
YD/TXXXX-XXXX
数据元素在不同存储位置、不同时间段或被不同用户进行使用时的一致程度,例如同一电信数据中
相同用户的标识/准标识的一致性;计算公式为(13):
= / …………(13)
式中:
X——数据一致性,取值范围为[0,1]。 的值越小,说明数据对应一致性越差;值越大,说明数据
对应一致性越好;
A——满足一致性要求的数据集中元素数量;
B——被评估数据集中元素的总数量。
5.6.2数据关联一致性
电信数据元素之间根据电信网络场景或机器学习应用要求,满足定义好的一致性约束准则的程度。
例如,TCP传输相关的数据内容,传输双方收发相关的元素能够互相匹配。计算公式为(14):
= / …………(14)
式中:
X——数据关联一致性,取值范围为[0,1]。 的值越小,说明数据关联一致性越差;值越大,说明
数据关联一致性越好;
A——满足一致性要求的数据集中对应的元素组数量;
B——需要满足一致性要求的元素组总数量。
5.6.3数据准则一致性
多项数据间的关系符合一定逻辑经验或权威准则(例如网络速率有一定限值)的程度,计算公式为
(15):
= / …………(15)
式中:
X——数据准则一致性,取值范围为[0,1]。 的值越小,说明数据准则一致性越差;值越大,说明
数据准则一致性越好;
A——数据集中满足规定的经验准则的元素数量;
B——被评估数据集元素的总数量。
5.6.4数据分布一致性
数据集中的数据分布满足参考模型分布特点的程度,计算公式为(16):
= ( || )…………(16)
式中:
X——数据分布一致性,当且仅当被评估的数据集分布与参考模型分布完全一致时,X=0。X的取
值应当被限制在一定的范围内,但为了提高机器学习应用模型的准确度和泛化能力,X的取值范围也并
非越小越好,应当根据机器学习应用的效果进行反馈调整;
——被评估数据集的概率分布;
Q——参考模型的概率分布;
( || ): 和Q之间的KL-散度。
5.6.5数据处理分布一致性
经过一定的(预)处理前后的数据集分布的一致程度,计算公式为(13):
10
YD/TXXXX-XXXX
= ( || )…………(17)
式中:
X——数据处理分布一致性,当且仅当处理前的数据集分布与处理后的数据集分布完全一致时,X=0,
此时数据处理分布一致性最高。
——经过数据(预)处理前数据集的概率分布;
Q——经过数据(预)处理后数据集的概率分布;
( || ): 和Q之间的KL-散度。
5.7适量性
5.7.1数据重复率
对数据集本身、或数据集中特定元素重复出现的度量,计算公式为(18):
= / …………(18)
式中:
X——数据重复率,取值范围为[0,1); 的值越大,说明被评估数据中的重复率越高。
A——被评估数据集的重复出现次数/特定元素的重复出现次数;
B——被评估数据集/特定元素的总数量。
5.7.2数据冗余率
数据集中除了所需的数据元素外包含的冗余数据元素比率,计算公式为(19):
= / …………(19)
式中:
X——数据冗余率,取值范围为[0,1]; 的值越大,说明被评估数据中的冗余数据占比越高。
A——满足需求范围以外的数据集元素数量;
B——被评估数据集的元素总数量。
5.8时效性
5.8.1数据及时性
数据生成、采集等活动的时间满足机器学习应用需求或规则要求的程度,计算公式为(20):
= / …………(20)
式中:
X——数据冗余率,取值范围为[0,1]; 的值越大,说明被评估数据的及时性越好。
A——满足规定数据集时间要求的数据元素数量;
B——被评估数据集的元素总数量。
5.8.2数据时序性
数据集中数据元素之间的满足一定的时序关系要求的程度,计算公式为(21):
= / …………(21)
式中:
X——数据时序性,取值范围为[0,1]; 的值越大,说明被评估数据满足时序关系要求的程度越高;
A——满足时序性要求的数据集元素数量;
B——被评估数据集需要满足时序性要求的元素总数量。
11
YD/TXXXX-XXXX
5.8.3数据更新及时性
不同时段获取的数据满足更新时间或频率要求的程度,计算公式为(22):
= / …………(22)
式中:
X——数据更新及时性,取值范围为[0,1]; 的值越大,说明被评估数据满足更及时性的程度越高;
A——满足更新时间或频率要求的数据集元素数量;
B——需要满足更新时间或频率要求的元素总数量。
5.9可靠性
5.9.1数据来源完整度
数据集中来源信息提供齐全的比例,计算公式为(23):
= / …………(23)
式中:
X——数据来源完整度,取值范围为[0,1]; 的值越大,说明数据集标注来源的程度越高;
A——数据集中来源标注齐全的元素数量;
B——被评估数据集的元素总数量。
5.9.2数据来源可信度
数据来源进行了标注,且来源可信的比例,计算公式为(24):
= / …………(24)
式中:
X——数据来源可信度,取值范围为[0,1]; 的值越大,说明被评估数据来源可信的程度越高;
A——数据集中来源可信的元素数量;
B——被评估数据集的元素总数量。
5.9.3数据内容可信度
数据集中元素内容符合可信赖的内容值域的程度,例如无线信道的SNR记录在合理的区间内,计算
公式为(25):
= / …………(25)
式中:
X——数据内容可信度,取值范围为[0,1]; 的值越大,说明被评估数据内容可信的程度越高;
A——数据集中内容可信的元素数量;
B——被评估数据集的元素总数量。
5.9.4数据量合理度
数据集中来源可信、内容可靠的数据总量符合机器学习应用需求的程度,计算公式为(26):
= / …………(26)
式中:
X——数据内容可信度,取值范围为[0,1]; 的值越大,说明被评估数据内容可信的程度越高;
A——数据集中内容可信的元素数量;
B——被评估数据集的元素总数量。
12
YD/TXXXX-XXXX
5.9.5数据描述可靠性
数据元素的表达或编码的可被解释的程度,计算公式为(27):
= / …………(27)
式中:
X——数据描述可靠性,取值范围为[0,1]; 的值越大,说明被评估数据满足描述可靠性程度越高;
A——满足描述可靠性要求的数据元素数量;
B——被评估数据集的元素总数量。
5.9.6数据分布可信度
数据集元素的分布特点可信程度,计算公式为(28):
= ( || )…………(28)
式中:
X——数据分布可信度,当且仅当被评估的数据集分布与参考模型分布完全一致时, =0。 的取
值应当被限制在一定的范围内,但为了提高机器学习应用模型的准确度和更新, 的取值也并非越小越
好,应当根据机器学习应用的效果进行反馈调整,来设定合适的参考值。
——被评估数据集元素的概率分布;
Q——参考模型的概率分布;
( || ): 和Q之间的KL-散度。
6指标筛选
在面向机器学习应用时,针对不同的应用类型和训练目标,对于电信数据质量的需求侧重与总体评
价目标有所不同。因此,质量评估指标的筛选应该对评价目标有足够的覆盖面,同时与评价目标保持高
度的一致性。对于面向机器学习应用的电信数据质量指标筛选与分析,可以由数据服务方内部的组织人
员或专家来确定:
a)结合应用需求与数据资源特点,从各个数据质量评估维度制定合适的评估指标。
b)组织多名人员从机器学习应用项目经验中对数据质量的实际依赖和感知程度对指标的重要程
度进行打分,例如可以采用1-9等比标度法;也可以采用机器学习的方法对权重进行自学习。
c)将打分结果汇总,利用一定的加权方法,得到每项指标的权重,
d)根据实际情况,截取权重最高的一定数量的指标作为实际使用的评价指标,并为其制定评估准
则和方法。
如表1所示,对评估指标进行筛选和权重打分时可以采取以下调查表格的格式:
表1评估指标权重打分调研表格示例
质量指标定义指标重要程度
不重要重要
数据元素完整性按照应用需求或规则要求,数据集123456789
中数据记录的赋值程度
………………
13
YD/TXXXX-XXXX
参考文献
[1]TR-REC-064中国科学院数据应用环境建设与服务《数据质量评测方法与指标体系》
14
YD/TXXXX—XXXX
目 次
前言........................................................................................................................................................................II
1范围.....................................................................................................................................................................1
2规范性引用文件................................................................................................................................................1
3术语和定义........................................................................................................................................................1
4电信数据质量管理总则....................................................................................................................................3
4.1概述.........................................................................................................................................................3
4.2数据质量评估原则.................................................................................................................................3
4.3数据质量评估维度.................................................................................................................................4
4.4电信数据质量管理一般流程.................................................................................................................5
4.5机器学习应用下电信数据质量评估方法.............................................................................................6
5机器学习应用下电信数据质量评估指标........................................................................................................6
5.1规范性.....................................................................................................................................................7
5.2完整性.....................................................................................................................................................8
5.3准确性.....................................................................................................................................................8
5.4有效性.....................................................................................................................................................9
5.5一致性.....................................................................................................................................................9
5.6适量性....................................................................................................................................................11
5.7时效性....................................................................................................................................................11
5.8可靠性...................................................................................................................................................12
6指标筛选..........................................................................................................................................................13
参考文献...............................................................................................................................................................14
I
YD/TXXXX-XXXX
面向机器学习的电信数据规范数据质量
1范围
本文件规定了对电信数据进行质量管理的通用原则、一般流程和评估方法,并对电信数据集在规范
性、完整性、准确性、有用性、一致性、适量性、时效性、可解释性和可靠性等维度相关的指标进行了
定义和示例说明。本文件所定义的电信数据类型主要为结构化数据,不涉及自然语言、图像等非结构化
与其他复杂类型数据。
本文件适用于电信网络运营商、设备商、服务商、软件开发者、最终用户、第三方监管机构、认证
机构或评测单位等来开展面向机器学习应用过程中电信数据的特性和质量评估相关工作,来保证电信数
据集在机器学习应用中的可用性,促进电信领域机器学习应用的开展。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T5271.1-2000信息技术词汇第1部分:基本术语
GB/T5271.17-2010信息技术词汇第17部分:数据库
GB/T35295—2017信息技术大数据术语
3术语和定义
下列术语和定义适用于本文件。
3.1
数据data
信息的可再解释的形式化表示,以适用于通信、解释或处理。
[来源:GB/T5271.1-2000,01.01.02]
3.2
数据集dataset
具有一定主题,可以标识并可以用于机器学习训练、验证及测试等处理过程的数据形式。
3.3
元数据metadata
关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和
数据易变性的数据。
[来源:GB/T5271.17-2010,定义17.06.05]
1
YD/TXXXX-XXXX
3.4
结构化数据structureddata
一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用
关系模型予以有效描述。
[来源:GB/T35295-2017,定义2.2.13]
3.5
数据集质量datasetquality
在指定条件下使用时,数据集的特性满足机器学习算法所需明确和隐含要求的程度。
3.6
数据质量管理dataqualitymanagement
对数据从采集、传输、预处理、存储、处理、应用和销毁生命周期的每个阶段中可能引发的各类数
据质量问题,进行度量、监控、质量问题解决等一系列管理活动。
3.7
数据质量维度datasetqualitydimension
数据满足机器学习应用要求和使用目的的基本质量特性,是一个数据约束的类型,例如完整性、一
致性等。
3.8
数据质量值类型dataqualityvaluetype
对数据质量进行评估的值的类型,例如布尔型变量、百分比、比率等。
3.9
数据标准datastandard
数据的命名、定义、结构和取值规范方面的规则和基准。
3.10
电信数据模型telecommunicationdatamodel
面向机器学习应用,对电信数据特征进行抽象和主题分类,并对数据主题、主要电信主体等相互之
间的关系进行描述。
3.11
数据结构特征structuralfeatureofdata
数据本身的构成遵循一定的准则(例如IP地址有A/B/C/D和特殊分类)。
3.12
2
YD/TXXXX-XXXX
数据统计特征statisticalcharacteristicofdata
与个体或群体相联系的数据所包含的差异性特征(例如极差、标准偏差、变异系数),规律性特征
(例如平均值、中位数、众数等)或具体分布类型以及参数等。
4电信数据质量管理总则
4.1概述
对于面向机器学习的电信数据质量管理总体框架如图1所示。在电信领域进行机器学习应用建设时,
数据提供方或数据服务方应能够识别机器学习应用对于电信数据质量的需求,输出元数据和数据集质量
评测报告,保证一定的电信数据质量。对于电信数据质量的评估,应遵循科学性、客观性、系统性、针
对性和引导性等原则。电信数据集质量管理的一般过程包括定义数据质量需求、建立数据质量评估模型、
评估任务配置、执行数据质量评估、修复数据质量问题和数据质量监控等。面向机器学习的电信数据要
满足的质量需求主要包括规范性、完整性、准确性、有用性、一致性、适量性、及时性、可解释性和可
靠性等维度。为了持续对电信网络中的数据进行全生命周期的质量管理与保障,数据提供方和数据服务
方需要具备一定的数据质量管理关键能力,包括数据分析工具与方法、数据质量准则定义与执行、数据
质量度量办法、数据质量问题根因分析、数据质量可视化等。
数
修据
复质
执质量
评行量监
估质问控
建
任量题
立评
定务
评
义配估
估
可质置
规完准有一适时模
解可量
范整确用致量效型
释靠需
性性性性性性性
性性求
图1电信数据质量评估原则、维度与一般流程
4.2数据质量评估原则
对面向机器学习的电信数据进行质量评估时,应遵循以下原则:
4.2.1科学性原则
数据质量的评估应能正确反映现实电信数据资源的状况以及对于机器学习应用性能的影响。主要体
现在正确的质量指标选择,采用科学合理的评估方法和门限等。另外,科学性还要求数据质量的评估应
计算简单,易于掌控,测量方法能够保持稳定和长期有效。同时,评估不可能穷尽所有因素,而应该选
择与机器学习应用相关性较大的要素。
4.2.2客观性原则
评估应是符合实际、客观可信、过程可监督的。评估指标的选择要有一定的理论和可实施性,不能
够脱离实际应用,应该考虑指标的量化以及目标质量获取的难易程度,应当考虑电信网络的采集环境与
资源条件等。
3
YD/TXXXX-XXXX
4.2.3系统性原则
面向机器学习应用进行数据评估时需要考虑的数据质量因素广泛复杂,应采用多个指标来衡量,个
别质量维度或指标的测量可能无法正确反映数据资源的质量水平,数据的评估应尽可能全面。同时多个
评估指标之间可能是相互联系和相互制约的,每个指标应保持其独立性。因此在选择评估指标时,要考
虑指标的系统性和层级关系,避免指标间冲突。
4.2.4针对性原则
不同机器学习
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024天然气价格联动机制合同
- 04项目合作关于共同开发智能家居系统的合作协议
- 2024年区块链技术应用于供应链合同
- 2024年大数据分析与人工智能应用开发合同
- 2024年室内设计监理合同
- 2024区块链技术买卖合同
- 2024年工程项目劳务分包合作协议
- 2024年合作守则:两人共事协议
- 2024年天然气物流合作协议
- 数模电子技术课程设计
- 【图文】污水源热泵空调原理
- 双梁桥式起重机变频改造方案
- 胸痹中医临床路径和诊疗方案
- 欧盟铁路机车车辆互联互通技术规范_TSI_CE认证解析
- 小学生安全用电知识(课堂PPT)
- 装饰自己的名字说课稿
- 人教版(PEP)四年级上册英语unit 1 My classroom图文完美版(课堂PPT)
- 幼小衔接中存在的问题及对策
- 中级汉语期末考试测试题(共5页)
- 《国家电网公司安全生产事故隐患排查治理管理办法》(国家电网安监[
- 水保监理报告范文
评论
0/150
提交评论