信息资源数据质量规范(用于个人参考学习版本)_第1页
信息资源数据质量规范(用于个人参考学习版本)_第2页
信息资源数据质量规范(用于个人参考学习版本)_第3页
信息资源数据质量规范(用于个人参考学习版本)_第4页
信息资源数据质量规范(用于个人参考学习版本)_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息资源数据质量规范范围规范了数据质量控制的基本原则与方法。本部分适用于信息化学习平台的数据实施阶段,主要供信息化学习平台及某地直各单位数据共享交换工作的相关人员使用。术语及定义质量一组固有特性满足要求的程度。准确度在一定观测条件下,观测值及其函数的估值与其真值的偏离程度。一致性质量级别数据质量结果的一个或一组阈值,用于确定数据集符合产品规范规定或用户要求的程度。数据质量定量元素说明数据集质量的量化组成部分。数据质量评价过程应用和记录质量评价方法及评价结果的操作。数据质量测量数据质量定量元素的取值。数据质量非定量元素说明数据集质量的非量化组成部分。数据质量结果数据质量测量得到的一个值或一组值,或者将获取的一个值或一组值同规定的一致性质量级别相比较得到的评价结果。数据质量范围记录其质量信息的数据的覆盖范围或特征。数据质量定量子元素数据质量定量元素的组成部分,用于描述质量定量元素某一方面。数据质量描述基本原理数据质量描述组件质量描述可用于数据集系列、数据集或数据集内具有相同特征的一部分数据。一个数据集的质量应当用以下两个组件来描述:数据质量定量元素;数据质量非定量元素。数据质量定量元素、数据质量定量子元素及数据质量定量子元素描述子描述数据集满足产品规范中预先设定的标准的程度并提供定量的质量信息。数据质量非定量元素提供非定量的质量信息。数据质量非定量元素在评价数据集在不同于预期应用的特定应用中的质量时很有用。质量信息的质量即质量信息的可靠性。该类型信息记录在“数据质量评价报告”中。数据质量定量元素数据质量定量元素下列数据质量定量元素,若可用,应被用来描述数据集满足预先设定在产品规范中的标准的程度。完整性:特征、特征属性及特征关系存在或不存在。逻辑一致性:数据结构(包括概念的、逻辑的或物理的数据结构)、属性及他们之间的相互关系符合逻辑规则的程度。位置精度:特征的位置精度。时间精度:时间属性及特征之间的时间关系的精度。专题精度:定量属性的精度、非定量属性的正确性、特征分类的正确性及特征之间相互关系的正确性。用户可新建附加数据质量定量元素以便描述无法用以上定量元素描述的数据质量定量信息。数据质量定量子元素完整性多余:数据集中有多余数据。缺少:数据集中缺少应有的数据。逻辑一致性概念一致性:符合概念模式规则。值域一致性:值在值域范围内。格式一致性:数据存储与数据集物理结构的一致性。拓扑一致性:数据集拓扑关系的正确性。位置精度绝对精度:坐标值与其可接受的坐标值或真值之间的接近程度。相对精度:特征相对位置与其可接受的相对位置或真值之间的接近程度。栅格数据位置精度:栅格数据位置与其可接受的值或真值之间的接近程度。时间精度时间测量精度:时间测量的正确性。时间一致性:有序事件或有序序列的正确性。时间正确性:数据在与时间有关的方面的正确性。专题精度分类正确性:特征或其属性的分类相对于分类标准的正确性。非定量属性正确性:非定量属性的正确性。定量属性精度:定量属性的精度。对任意数据质量定量元素,可新建附加数据质量定量子元素。数据质量定量子元素描述子对每个可用的数据质量定量子元素,应记录其质量信息。每个数据质量定量子元素的完全的质量信息用下列7个数据质量描述子来记录:数据质量范围;数据质量测量;数据质量评价过程;数据质量结果;数据质量值类型;数据质量值单位;数据质量日期。数据质量非定量元素下列数据质量非定量元素,若可用,应被用来描述数据集的非定量的质量信息:目的用途数据志目的描述数据集的创建原因和其预定的使用目的。用途描述使用过该数据集的应用。数据生产者或其它数据使用者用“用途”来描述数据集的使用情况。数据志描述数据集的历史,即数据集从搜集、获取、汇编到现状的整个生命周期。数据志包含两部分:描述数据集起源的源信息;描述数据集生命周期中的事件或转换的处理步骤或历史信息(包括连续性或周期性地维护数据集的处理过程)。附加数据质量非定量元素描述以上数据质量非定量元素没有描述的非定量的质量信息。识别及报告数据质量方法识别定量的数据质量可用于数据集的所有数据质量定量元素都应当被识别。有些数据质量定量元素也许不能用于某一特定类型的数据集。若该标准所列的数据质量定量元素没有充分描述某一质量部件,则应当命名并定义附加数据质量定量元素。附加数据质量定量元素的命名和定义应当被包括为数据集质量信息的一部分。应识别每个可用数据质量定量元素的所有可用数据质量定量子元素(每个可用数据质量定量元素至少有一可用数据质量定量子元素)。有些可用数据质量定量元素的数据质量定量子元素也许对某一特定类型的数据集不可用。若该标准所列的数据质量定量子元素没有充分描述数据质量的某一方面,则应当命名并定义附加数据质量定量子元素。附加数据质量定量子元素的命名和定义应被包括为数据集质量信息的一部分。识别非定量的数据质量数据集的目的总是可用的。数据集生产者所知道的所有用途都是可用的。数据集的数据志总是可用的。在极少数情况下,也许不知道数据志的相关信息。要么报告数据志,要么报告缺少数据志的原因。数据质量范围所限定的数据集内的一小部分数据的数据志可与数据集其它部分的数据志不同。对数据质量范围所限定的数据集内具有不同数据志的小部分数据,应当提供其数据志并将其作为数据集非定量的质量信息的一部分,以便完全记录非定量的质量信息。若该标准所列的数据质量非定量元素没有充分描述非定量数据质量的某一方面,则应当命名并定义新的数据质量非定量元素。附加数据质量非定量元素的命名和定义应当被包括为数据集质量信息的一部分。具体处理流程为提高进入信息化学习平台的数据质量,数据由委办交换到信息化学习平台前置节点后,要经过一系列数据处理过程,最主要的步骤即是数据清洗、数据比对。数据清洗数据清洗过程包含两个层次的含义,第一是数据过滤,将源数据按照一定的过滤规则进行区分,符合规则和不符合规则的数据分别存放到不同的数据表中;第二就是真正意义上的数据清洗,即按照清洗规则将数据源中的数据直接进行转换,并代替原来的数据。清洗流程数据清洗整体流程图如下:数据处理清洗流程流程步骤标准:信息化学习平台管理者依据国家、省、区内以及相关行业标准对委办交换的数据资源分析,并针对具体数据制定数据清洗规则。信息化学习平台管理者在数据清洗及转换子系统中完成数据清洗规则的实施工作。数据清洗及转换子系统定期执行数据清洗,通过清洗规则对信息化学习平台前置数据库的数据进行过滤及清洗。数据清洗过程中不符合清洗规则的数据将被存入清洗异常数据库。数据清洗及转换子系统定期执行清洗异常数据返还工作,将异常数据记录以及异常原因反馈给相应委办。委办在收到清洗异常数据报告后,对异常数据进行跟踪确认及修改,并再次交换到信息化学习平台前置数据库。信息化学习平台重复数据清洗流程直至数据清洗完全通过,整个清洗过程结束。清洗策略数据清洗需要结合国标、行标、委办数据真实情况,制定数据清洗规则,保证数据清洗将尽可能多的错误数据过滤,常见的四种清洗策略如下:(一)不为空清洗对数据记录信息是否为空进行核对。比如委办提供人口相关信息资源时,必须提交人口对应身份证号码,此信息项要求不能为空,对于该信息项为空的数据记录将被清洗流程过滤。(二)长度清洗对数据记录信息长度进行核对。比如委办提供人口相关信息资源时,依据国家对身份证号码的制定规则,身份证号码统一为15位或者18位,对于该信息项长度不符合要求的数据记录将被清洗流程过滤。(三)类型清洗对数据记录信息类型进行核对。比如委办提供人口相关信息资源时,人员年龄统一约定为正整数数字,对于该信息项不为数字类型的数据记录将被清洗流程过滤。(四)格式清洗对数据记录信息格式进行核对。比如委办提供登记审批日期时,格式必须为可识别的常见日期格式,对于该信息项日期格式不能被识别的数据记录将被清洗流程过滤。数据比对数据比对过程对两个数据表中的数据按照规则进行比对,比如只在某一个表中存在的数据,或者通过字段之间的关系定义比对规则。比对之后生成符合比对规则的结果表。比对流程数据比对整体流程图如下:数据处理比对流程流程步骤标准:信息化学习平台管理者依据“一数一源”原则,指定比对数据项的数据源头单位作为基准,针对数据源头单位和非源头单位提供的数据制定数据比对规则。信息化学习平台管理者在数据清洗及转换子系统中完成数据比对规则的实施工作。数据清洗及转换子系统定期执行数据比对,依据基础信息资源库中源

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论