13数据处理流程规范_第1页
13数据处理流程规范_第2页
13数据处理流程规范_第3页
13数据处理流程规范_第4页
13数据处理流程规范_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据处理流程规范 II目次TOC o 1-5 h z目次I范围1规范性引用文件1术语、定义和缩略语1术语和定义1缩略语1数据来源与处理流程1数据来源1数据处理原则2数据处理流程2数据获取与保存3数据预处理3数据清洗4数据核检4数据更新4 数据处理流程规范范围本部分按照GB/T1.1-2009给出的规则起草,提出了政务信息资源中的数据处理流程,包括数据预处理和数据清理过程。规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T21063.1政务信息资源目录体系第1部分:总体

2、框架GB/T35274-2017信息安全技术大数据服务安全能力要求术语、定义和缩略语术语和定义下列术语和定义适用于本文件。数据安全datasecurity一是数据本身的安全,主要是指采用现代密码算法对数据进行主动保护,如数据保密、数据完整性、双向强身份认证等,二是数据防护的安全,主要是采用现代信息存储手段对数据进行主动防护,如通过磁盘阵列、数据备份、异地容灾等手段保证数据的安全。数据预处理datapreprocessing数据预处理是指数据在处理、加工之前对数据进行的一系列操作。脏数据dirtydata脏数据是指系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在系统中

3、存在不规范的编码和含糊的业务逻辑。数据清洗datacleaning数据清洗是指利用现有的数据挖掘手段和方法清洗脏数据,将脏数据转化为满足数据质量要求或应用要求的数据的过程。缩略语下列缩略语适用于本文件。ETL:数据仓库技术(ExtractTransformLoad)数据来源与处理流程数据来源政务信息资源中的数据是政务部门在履行职责及公众使用政务信息的多种平台的过程中形成或获取的,以一定形式记录、保存的文件、资料、图表和数据等各类数据资源,包括政务部门直接或通过第三方依法采集的、依法授权管理的和因履行职责需要依托政务信息系统形成的数据资源等。数据处理原则方法一致性数据处理过程中应统一决策,同一数

4、据库范围内工作方法、技术指标均应当统一,从而达成数据产品的一致性。数据可信性数据可信性是数据处理过程的基本原则,包括精确性、完整性、一致性、有效性、唯一性精确性:描述数据是否与其对应的客观实体的特征相一致。完整性:描述数据是否存在缺失记录或缺失字段。一致性:描述同一实体的同一属性的值在不同的系统是否一致。有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。唯一性:描述数据是否存在重复记录。数据可用性数据可用性包括时间性、稳定性等。时间性:描述数据是当前数据还是历史数据。稳定性:描述数据是否是稳定的,是否在其有效期内。数据可追溯性数据可追溯性是数据处理过程中最好的依据,不论数据如何处理、

5、改变,数据都可追溯数据处理流程数据处理流程如下图所示:数据更新结束图1数据处理流程图数据处理流程包含从数据来源的获取与保存、数据预处理、数据清洗、数据检核和数据更新等几个过程。数据获取与保存从数据来源获取到数据,在进行数据处理前要对数据进行备份,保证数据本身的安全,此外对保密数据、防护数据进行解密处理,获取到能够处理的数据并保存。数据预处理数据抽取数据抽取是从数据源中抽取数据的过程。数据抽取最常用的是ETL技术,具体数据抽取工具种类繁多,可根据实际业务数据的特点进行选择。从数据库中抽取数据一般有以下两种方式。全量抽取:全量抽取类似于数据镜像或数据复制,它将数据源中的表或视图的数据原封不动的从数

6、据库中抽取出来。该方法主要用于在系统数据初始化时使用。增量抽取(更新):增量抽取是指在上次抽取完成后,对数据库中新增或修改的数据的抽取数据过滤数据过滤要初步实现对数据中不符合应用规则或者无效的数据进行过滤操作,使得数据标准或代表内容统一。数据转换数据转换要实现对数据的格式、信息代码、值的冲突进行转换。数据加载数据加载过程进行的主要操作是插入操作和修改操作。搭建数据库环境将干净数据及脏数据分别插入到不同的数据表中。数据归约数据归约用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同,解决数据处理时数据量非常大的问题。4.6数据清洗数据清洗依据数据清洗规则将脏数据转化为满足数据质量要求或应用要求的数据,为数据核检做好准备。4.7数据核检对清洗过的数据依据相关标准或规范进行核检,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论