




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Q/LB.□XXXXX-XXXXII智慧水利数据质量规范范围本文件规定了智慧水利数据质量规范的术语和定义、数据质量管理、数据质量描述、数据质量识别、数据质量评价、数据质量控制、报告数据质量信息。本文件适用于智慧水利数据采集、传输、维护和使用过程中的质量管理。规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T33674—2017气象数据集核心元数据术语和定义下列术语和定义适用于本文件。
智慧水利smartwaterconservancy以智慧城市为代表的智慧型社会建设中产生的相关先进理念和高新技术在水利行业的创新应用,是云计算、大数据、物联网、传感器等技术的综合应用。
数据质量dataquality数据的一组固有特性满足要求的程度。固有特性一般指永久性的特性。
数据质量管理dataqualitymanagement指导和控制某机构数据质量的协调活动。
质量测量qualitymeasurement对质量定量元素、子元素的评估。
质量结果qualityresult数据质量测量得到的一个值或一组值,或将这些值同规定的一致性质量等级相比得到的评价结果。
质量范围qualityscope报告质量信息的数据的覆盖范围或特征。
完全检查completeinspection质量范围内所有个体都进行的检查。
取样检查samplinginspection从质量范围内的整体中抽取若干个体进行的检查。
数据集dataset可以标识的数据集合。[来源:GB/T33674—2017,3.1]数据质量管理概述智慧水利数据质量管理主要是对数据质量进行规范和控制,要求智慧水利项目的数据质量管理必须识别相应产品规范或用户需求中的质量信息,在元数据、质量评价报告中形成正确的质量描述,并在这些规范上的质量结果均为“合格”。框架数据质量管理框架见图1。数据质量管理框架数据质量描述描述要素数据质量用以下两个元素来描述:质量定量元素;质量非定量元素。每个数据质量定量元素可细分为多个数据质量定量子元素。每个数据质量定量子元素用多个数据质量定量子元素描述项描述。通过数据质量定量元素、数据质量定量子元素及数据质量定量子元素描述项,描述数据资源满足相应规范中预先设定的标准的程度,并提供定量的质量信息。数据质量非定量元素提供非定量的质量信息。数据质量描述框架见图2。数据质量信息框架定量元素构成数据质量定量元素用来描述数据集的定量质量信息,用来表达符合数据规范的程度。包括但不限于以下元素:完整性:特征、特征属性及特征关系存在或不存在;逻辑一致性:数据结构(包括概念的、逻辑的或物理的数据结构)、属性及他们之间的相互关系符合逻辑规则的程度;位置精度:特征的位置精度;时间精度:时间属性及特征之间的时间关系的精度;专题精度:定量属性的精度、非定量属性的正确性、特征分类的正确性及特征之间相互关系的正确;附加数据质量定量元素:用户可根据需求设置,以便描述无法用以上定量元素描述的定量的数据质量信息。子元素数据质量定量子元素与数据质量定量元素相对应,用来描述数据集的定量质量信息。包括但不限于以下子元素:完整性的子元素:多余:数据集中有多余数据;缺少:数据集中缺少应有的数据。逻辑一致性的子元素:概念一致性:符合概念模式规则;值域一致性:值在值域范围内;格式一致性:数据存储与数据集物理结构的一致性;拓扑一致性:数据集拓扑关系的正确性。位置精度的子元素:绝对精度:坐标值与其可接受的坐标值或真值之间的接近程度;相对精度:特征相对位置与其可接受的相对位置或真值之间的接近程度;栅格数据位置精度:栅格数据位置与其可接受的值或真值之间的接近程度。时间精度的子元素:时间测量精度:时间测量的正确性;时间一致性:有序事件或有序序列的正确性;时间正确性:数据在与时间有关的方面的正确性。专题精度的子元素:分类正确性:特征或其属性的分类相对于分类标准的正确性;非定量属性正确性:非定量属性的正确性;定量属性精度:定量属性的精度。对任意数据质量定量元素,可新建附加数据质量定量子元素。子元素描述项对每个可用的数据质量定量子元素,应记录其质量信息。每个数据质量定量子元素的完全的质量信息,用下列7个数据质量描述项来描述:数据质量范围;数据质量测量;数据质量评价过程;数据质量结果;数据质量值类型;数据质量值单位;数据质量日期。非定量元素数据质量非定量元素用来描述数据集的非定量的质量信息。包括但不限于以下元素:目的:描述数据集的创建原因和其预定的使用目的;用途:描述使用过该数据集的应用。数据生产者或其它数据使用者用“用途”来描述数据集的使用情况;数据志:数据志描述数据集的历史,即数据集从搜集、获取、汇编到现状的整个生命周期。数据志包含两部分:描述数据集起源的源信息;描述数据集生命周期中的事件或转换的处理步骤或历史信息(包括连续性或周期性地维护数据集的处理过程)。附加数据质量非定量元素描述以上数据质量非定量元素没有描述的非定量的质量信息。数据质量识别定量的数据质量信息识别可用的数据质量定量元素对可用于数据集的所有数据质量定量元素加以识别。判断这些元素是否适用于某一特定类型的数据集。数据质量定量元素可用性由数据规范来决定。新建附加数据质量定量元素若本文件所列的数据质量定量元素未能充分描述数据质量的某一方面,则应当命名并定义新的数据质量定量元素。附加数据质量定量元素的命名和定义,应作为数据集质量信息的一部分。识别可用的数据质量定量子元素对可用数据质量定量元素的所有数据质量定量子元素加以识别,判断这些元素是否适用于某一特定类型的数据集。每个可用数据质量定量元素至少包含一个可用数据质量定量子元素。数据质量定量子元素的可用性由数据规范来决定。新建附加数据质量定量子元素若本文件所列的数据质量定量子元素未能充分描述数据质量的某一方面,则应当命名并定义新的数据质量定量子元素。附加数据质量定量子元素的命名和定义,应作为数据集质量信息的一部分。数据质量定量子元素描述项使用数据质量范围对每个可用数据质量定量子元素,应识别至少一个数据质量范围。数据质量范围可以是数据集系列、数据集或数据集内具有相同特征的部分数据。若数据质量范围无法识别,则默认为该数据集。数据质量范围的确定参照数据规范及数据质量非定量元素提供的非定量质量信息。在同一数据集内,质量也可能有所不同。故对每个可用数据质量定量子元素,应当识别多个数据质量范围,以便更全面地描述定量的质量信息。数据质量范围应被充分描述,下列可被用来描述数据质量范围:层次:数据集所属的数据集系列、数据集或数据集内具有某些相同特征的一小部分;数据项类型:特征类型、特征属性及特征间的相互关系;特定数据项:特征实例、属性值及特征间的关系实例;地理范围;时间范围:时间帧及时间帧精度。数据质量测量每个数据质量范围有一个数据质量测量。数据质量测量应简要描述并命名(若名称存在)应用于该数据质量范围所规定的测试类型,并应当包含边界或限制参数。数据集的质量应当由多个测量来衡量。单一测量不能充分评价数据质量,也不能为数据集的所有应用提供单一测量。数据质量评价过程每个数据质量测量有一数据质量评价过程。数据质量评价过程应当描述(或引用文档描述)数据质量范围内的数据质量测量方法,并包含该方法报告。数据质量结果每个数据质量测量有一个数据质量结果。数据质量结果应为以下两者之一:将数据质量测量应用到数据质量范围所限定的数据后得到的值或值的集合;将所得到的值或值的集合,用可接受的指定一致性质量等级,评价这些值或值的集合得到的结果。该数据质量结果为“通过”或“不通过”。这两种类型的数据质量结果都应被提供。数据质量值类型每个数据质量结果有一个数据质量值类型。“通过”或“不通过”的数据质量类型为“布尔变量”。数据质量值单位每个数据质量结果有一个数据质量值单位(若存在)。数据质量测量日期每个数据质量测量应有一个数据质量测量日期。非定量的数据质量信息识别可用的数据质量非定量元素数据集目的应明确,用途应清晰,数据志应完整。数据集的数据志应是可用的,或者报告数据志,或者报告缺少数据志的原因。数据质量范围所限定的数据集内,当一部分数据的数据志与其它部分的数据志不同时,应提供其数据志,作为非定量的数据质量信息完整记录的一部分。新建附加数据质量非定量元素若本文件所列的数据质量非定量元素未能充分描述非定量数据质量的某一方面,则应命名并定义新的数据质量非定量元素。附加数据质量非定量元素的命名和定义,应作为数据集质量信息的一部分。数据质量评价概述数据质量评价过程是产生和报告数据质量结果的一系列步骤。质量评价过程可用在静态数据集上,也可用在动态数据集上。评价方法数据质量评价方法分类数据质量评价方法分为:直接评价方法:通过比较数据与内外部参考信息来确定数据质量;间接评价方法:使用与数据相关的外部信息推断或估计数据质量。直接评价方法直接评价方法可分为:自动评价方法或手工评价方法;完全检查方法或取样检查方法:完全检查方法:测试数据质量范围内的所有数据项;取样检查方法:测试数据质量范围内的部分数据项,取样方法、取样率及取样过程应在数据质量评价报告中报告。使用取样检查方法时,应分析数据质量结果的可靠性,特别是在使用小样本或非随机取样时。间接评价方法间接评价方法所依据的外部知识包括但并不限于:数据质量非定量元素、数据集的其他质量报告、关于产生该数据集的数据的质量报告。仅当直接评价方法不可用时,才用间接评价方法。评价流程和步骤过程流评价与报告数据质量结果的过程流见图3。评价与报告数据质量结果的过程流评价步骤评价步骤见表1。评价步骤步骤动作描述1识别可用的数据质量定量元素、数据质量定量子元素及数据质量范围按第6章识别数据质量定量元素、数据质量定量子元素及数据质量范围。若产品规范或用户需求有测试需要,重复该步2识别数据质量测量对每个测试,识别数据质量测量、数据质量值类型及数据质量值单位(若存在)3选择并运用数据质量评价方法对每个被识别的数据质量测量,选择数据质量评价方法4决定数据质量结果结果为:定量数据质量结果、数据质量值或数据质量值集合、数据质量值单位及数据质量日期5决定一致性若产品规范或用户需求中已指定一致性质量层次,将其与数据质量结果相比较后可决定一致性。一致性数据质量结果(“通过”或“不通过”)是定量数据质量结果与一致性质量层次比较后的结果数据质量控制控制规则数据质量描述测试套件“数据质量描述测试套件”用来测试对数据集的质量描述的正确性。对数据集的质量描述都必须通过该测试套件的所有测试。测试一:组件测试测试目的:证实质量组件都在质量描述中;测试方法:检查质量描述,证实数据质量定量元素、数据质量定量子元素及数据质量定量子元素描述项已被用来描述定量的质量信息;检查质量描述,证实数据质量非定量元素已被用来描述非定量的质量信息。测试二:正确性测试测试目的:证实质量描述的正确性;测试方法:检查质量描述,证实其数据质量定量元素及数据质量定量子元素在本文件中,或是用户附加的以便用来描述不在本文件中的数据质量组件或方面;检查质量描述,证实本文件中的数据质量定量子元素描述子已被用来描述定量的质量信息;检查质量描述,证实其数据质量非定量元素在本文件中,或是用户附加的以便用来描述不在本文件中的非定量的数据质量信息。测试三:定量的质量可用性测试测试目的:证实定量质量描述的可用性;测试方法:识别产品规范中与定量质量相关的语句并用它们来识别可用的数据质量定量元素及其可用的数据质量定量子元素。比较这些数据质量定量子元素与质量描述中所用的数据质量定量子元素,确保该数据集可用的所有数据质量定量子元素都已被识别并被用在质量描述中。测试四:非定量的质量可用性测试测试目的:证实非定量的质量描述的可用性;测试方法:证实可用的数据质量非定量元素被用来描述非定量的质量信息。测试五:排斥性测试测试目的:证实质量描述中的附加元素是排斥性的,证实关于附加元素的信息已被充分提供;测试方法:检查所有附加数据质量定量元素,证实每个都描述了本文件中数据质量定量元素没有描述的定量质量信息;检查所有附加数据质量定量子元素,证实每个都描述了本文件中数据质量定量子元素没有描述的定量质量信息;检查所有附加数据质量非定量元素,证实每个都描述了本文件中数据质量非定量元素没有描述的非定量质量信息。测试六:数据质量定量子元素描述子使用正确性测试目的:证实数据质量定量子元素描述子使用正确;测试方法:比较本文件及每个可用数据质量定量子元素(包括附加数据质量定量子元素)所提供的质量信息,证实数据质量定量子元素描述子的使用符合本文件。测试七:在元数据中报告数据质量信息测试目的:证实质量描述已在规范中报告;测试方法:证实定量的质量信息已按规范报告;证实非定量的质量信息已按规范报告。测试八:用“数据质量报告”报告定量的质量信息测试目的:证实定量质量描述已用“数据质量报告”报告;测试方法:证实定量质量信息已用符合报告数据质量信息要求的“数据质量报告”报告。数据质量内容测试套件测试目的:保证纳入“智慧水利”的数据内容的质量。测试方法:任何纳入“智慧水利”的数据应符合给定的数据规范,并提供一致性数据质量报告,且在这些数据规范上的数据质量结果均为“合格”。控制方法数据质量控制总体上可分为三个步骤:生产者自查:数据集生产者自查认为数据及其质量描述完全符合“数据质量描述测试套件”“数据质量内容测试套件”的所有要求,才能将其提交给第三方检查。第三方检查:第三方检查认为数据集生产者提交的数据及其质量描述完全符合“数据质量描述测试套件”“数据质量内容测试套件”的所有要求,才能将其提交给项目组检查。否则,详细指出错误,将材料返回给数据集生产者修改。项目组检查:项目组检查认为数据集生产者提交的数据及其质量描述完全符合“数据质量描述测试套件”“数据质量内容测试套件”的所有要求,才能将其纳入“智慧水利数据”。否则,详细指出错误,将材料返回给数据集生产者修改。报告数据质量信息概述定量数据质量信息应按相应规范要求报告,还应以“数据质量报告”报告。非定量数据质量信息应按相应规范要求报告,无需以“数据质量报告”报告。当多个数据质量结果被综合成单个数据质量结果来报告数据集质量时,综合数据质量结果应包含在“数据质量报告”中,其数据质量结果类型为“综合”。数据质量报告数据质量报告主要内容见表2。其中:编号:给表中每个条款编号;名称:报告条款名称;定义/内容:定义或描述条款内容;条件:描述报告该条款的必要条件,或需要该条款的条件。其含义如下:必选:必须有该条款;条件:规定条件被满足时必须有该条款;可选:该条款是可选的。数据质量报告主要内容编号名称定义/内容条件1质量报告报告章节必选1.1报告名称报告名称必选1.2报告范围该报告所评价数据集的范围可选2数据质量测量报告章节必选2.1数学描
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国硅胶及硅胶制品市场运营状况及投资战略研究报告
- 2025-2030年中国真空保温杯行业运行现状及投资发展前景预测报告
- 2025年安徽省建筑安全员-A证考试题库附答案
- 泰山科技学院《VI设计》2023-2024学年第二学期期末试卷
- 2021情报学情报检索学试题
- 吉林城市职业技术学院《纳米材料制备技术》2023-2024学年第二学期期末试卷
- 2024-2025学年天津市滨海新区田家炳中学高一上学期12月月考历史试卷
- 汝州职业技术学院《通信原理与通信技术》2023-2024学年第二学期期末试卷
- 2025青海省建筑安全员C证考试题库
- 天津师范大学津沽学院《招聘与甄选》2023-2024学年第二学期期末试卷
- 《社区康复》课件-第四章 脑血管疾病患者的社区康复实践
- 生活化教学在小学道德与法治课堂实践 论文
- 2024年江苏农林职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 腰脊神经后支痛课件
- 《商务数据分析》 课件 项目一 商务数据分析认知
- 加强锻炼预防疾病主题
- 心衰合并胸腔积液的护理Ppt
- 2023学年、2024学年临平区公办学校校方责任险投保采购项目招标文件
- 物流风险管理与应对策略
- 2024家政行业现状分析
- 英汉互译单词练习打印纸
评论
0/150
提交评论