电子政务基础教程 第九章 数据质量管理_第1页
电子政务基础教程 第九章 数据质量管理_第2页
电子政务基础教程 第九章 数据质量管理_第3页
电子政务基础教程 第九章 数据质量管理_第4页
电子政务基础教程 第九章 数据质量管理_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章数据质量管理9.1政务数据质量管理概述数据质量对于政务服务至关重要,在跨系统整合共享需求下,它是不同机构能否成功构建应用的前提。它由政府系统内部与外部数据质量需求、质量控制、质量验证与质量改进等内容组成,涵盖政务数据的创建、采集、加工、转换、传输与发布等整个生命周期。劣质数据会给电子政务造成诸多不良影响,如:①系统资源无法共享交换;(二)系统数据维护、特别是跨系统数据追溯与维护困难;(三)政务服务差错;(四)公众服务体验不佳,满意度下降;(五)用户投诉增加,出现较多负面评论;(六)政务业务与管理数据失真;(七)机构间资源共享与交互出现问题;(八)高层决策依据的数据错误或缺失;(九)政务系统运行效率下降,等等。政务数据质量管理是系统性问题,它在“人类-网络-社会”环境中,包括:确立与各项政务活动的数据质量需求、构建数据监测流程、定义数据质量指标及反映其变化与波动的监控措施。可再将其转换5种控制需求:①针对政务业务构建数据质量指标体系;(二)依据指标体系建立相应的单项与关联控制规则;(三)确立各指标可接受的阈值;(四)动态记录业务运行中的数据质量情况;(五)针对记录中检测到的各种冲突、不一致与错误等报警,供管理人员处理,并将其加入控制规则等。9.2政务数据质量管理概念9.2.1政务数据质量管理定义与内涵1)政务数据质量管理的定义政务数据质量管理的定义是:通过计划、实施、控制与改进活动,运用系统化、网络化质量管理技术来测量、评估、改进以保证政务系统中各类数据的正确使用。2)定义的内涵---政务数据质量管理的内涵是,根据政务业务需求定义合适的数据质量水平与管理体系,包括:(1)制定数据质量现状的评估计划与衡量指标。(2)实施数据质量测量与改进的流程。(3)动态测量与监控按业务需求规定的数据质量水平。(4)执行解决数据质量问题的方案,达到改进与提升质量的效果等。9.2.2政务数据质量管理方法传统产业的质量管理有许多成功经验与方法,可用于电子政务领域,其中最具代表性的是数据质量管理PDMA循环。数据质量管理PDMA循环源于传统产业质量管理的PDCA(计划-Plan,执行-Do,检验-Check,调整-Action)循环,如图9-1左侧;改进后为数据领域的PDMA(计划-Plan,实施-Deploy,监控-Monitor,行动-Act)循环,如图9-1右侧。两者皆通过循环比对质量目标与现况来改进质量,差异是数据质量强调在计算机与网络环境下开展实时性系统监控。图9-1传统质量管理的PDCA循环(左)与数据质量管理的PDMA循环(右)示意9.2.3政务数据质量意识与质量管理目标1)建立政务数据质量意识数据质量不仅涉及技术、体制与管理,更多的是质量意识问题。政务数据质量意识包括能将数据质量问题与其实质影响联系起来,向监管者保证系统化的数据质量管理方法对机构内外的数据质量进行全面考察,还应向所有人员传递“政务数据质量问题不能仅靠技术手段解决”、“政务数据质量贯穿政务系统生命周期全过程,直接影响社会服务、公众体验”等理念。电子政务是人-机系统,数据质量的主导因素在人,关键是建立人的数据质量意识,核心是建立相应的考核与奖惩机制。2)政务数据质量管理的一般目标

数据质量针对系统各级管理阶层有不同的要求,一般目标如下:在机构内与参与机构间建立质量意识,让业务合作者、用户与上下游关联机构参与,同时,系统开发与运行者等都应强化数据质量意识。针对业务需求,建立具体的、针对各作业环节的数据质量评估标准与保证措施。根据业务流程,建立跨系统的数据质量意识与管理体系传导模式,构成政务数据质量保证链。改进政务数据质量,在满足政务系统内外业务的质量水平上,随用户检验的提升要求改进数据质量与管理模式。为动态测量、监控和交流政务数据质量水平,提供一致性的监测衡量与管理程序。3)政务数据质量管理的具体目标

政务应用中,数据质量有一些技术性目标,具体如下:数据丢失:应包含数据却未填写,或填写字段不完整。数据错误或不准确:信息未被正确输入或未得到正常维护。数据不对应:数据被错误地输入到了其他栏目。格式不符:数据未依照记录系统需要进行标准化处理。数据重复:同一账户、联系人、业务线索等在数据库中记录了不止一次,但可能其形式与称谓不同。数据输入失误:字词、名称或格式方面的错误、打字错误、顺序错误和歧义。9.3政务数据质量管理内容9.3.1数据质量管理活动框架政务数据质量管理一般涉及4类活动:计划(P),控制(C),开发(D)和操作(O),对应的管理活动与内容如下。建立和提升机构内部与机构间相关人员的数据质量意识(O)。围绕政务业务定义数据质量需求(D)。跟踪分析和评估各项业务进程中的数据质量(D)。定义政务数据质量的测评指标(P)。依据政务业务项与流程定义数据质量管理的业务规则(P)。在关键业务节点测试和验证数据质量需求满足程度(D)。确定与评估总体数据质量服务水平(P)。跨机构持续测量并监控数据质量(C)。管理数据质量、特别是跨机构、跨系统间的数据质量与接口(C)。清洗并纠正数据质量缺陷(O)。设计并实施数据质量管理作业程序(D)。监测政务数据质量管理的操作程序与绩效(C)。这些内容构成了政务数据质量管理的一般活动框架。9.3.2政务数据质量管理的对象、参与者、工具与测量体系1)管理对象

数据质量管理的对象包括数据元素、元数据、主数据、参考数据、各类业务与管理数据等,以及与数据相关的各级工作者。2)参与者

数据质量管理涉及所有业务干系机构的以下人员:(1)数据质量分析师。(2)数据分析师。(3)数据与数据库管理员。(4)数据资源管理员。(5)数据管理体系委员会成员。3)管理工具

数据质量管理主要采用以下工具:(1)数据分析工具。(2)统计分析工具。(3)数据清洗工具。(4)数据整合工具。(5)事件和问题管理工具。(6)大数分析工具与知识图谱等。4)测量体系

数据质量测量体系包括以下内容:(1)数据内容比对。(2)数据值分析。(3)错误/不合规对象的检出。(4)质量查验与校正。(5)质量水平的达成。(6)跨机构间数据质量管理的接口契合度。9.3.3数据质量的供给、输入与成果数据质量管理的主要目标,是保证各项服务业务的正确运行,不断提升数据质量以支持新服务项。故数据质量的供给包括质量标准、管理技术、测评方法、控制机制、体制衔接等方面的输入,其成果也包括了能在机构内部与机构间切实实施的多种规章制度、关键点检测、系统日志、作业台账、异常报告、处理纪录等。9.4政务数据质量体系9.4.1质量体系概述质量体系的定义是指为保证产品、过程或服务满足规定(或潜在)的质量要求,由机构、职责、程序、活动、能力和资源等构成的有机整体,即为实现质量目标而建立的综合体。传统企业为实施质量管理,生产出满足规定和潜在要求的产品和提供满意的服务,达到既定的质量目标,必须通过建立和健全质量体系来实现。质量体系分为质量管理体系和质量保证体系,在非合同环境下,企业只建立内部质量管理体系;在合同环境下,企业还须建立质量保证体系,以保证上下游质量控制链的完善。显然,这些针对传统产业的质量体系概念,对于电子政务数据质量领域,其基本理念与方法也适用。但电子政务属虚拟产业,数字领域中的质量体系、质量管理与控制理论等仍在完善中,各领域的实践也在数据治理的框架下进行中。9.4.2政务数据质量指标9.4.2.1政务数据质量指标体系要求

政务数据质量具有系统化特征,涉及多维度的综合数据质量指标,具体要求如下。1)规范性2)完整性3)准确性4)一致性5)及时性与可用性6)有效性7)易用性和可维护性8)全面性9)表达性10)可理解性11)效用性12)唯一性13)参照完整性14)合理性15)时效性

以上指标构成了数据质量管理维度,可据此对质量规则分类。根据实施之需,对度量的颗粒度进行细化,如数据值、数据元、数据记录和数据表等。9.4.2.2数据质量指标的选择与定义9.4.2.1给出了常规数据质量要求,具体政务系统中,指标选择有两个要点。一是指标定义的过程不能在数据质量管理的最后阶段才进行,而要在数据质量战略制定、设计和规划阶段开始,其后在实施中不断增减与改进指标;二是指标选择、构建数据质量管理维度时,要考虑以下一些指标特性。

1)可度量性2)业务相关性3)可接受度4)可控性5)可跟踪性9.4.2.3定义数据质量业务规则应动态检查政务数据质量是否满足业务规则,并监控质量对业务规则的符合度,为此需要以下措施。(1)将不满足业务需求的数据值、记录和记录集与有效的数据值、记录与记录集作比对。(2)生成通知事件,向数据管理员提示出现的质量问题。(3)建立自动或事件驱动的缺陷数据纠正机制,使其能满足业务要求。

流程(1)使用数据期望值,判断运行中的数据集是否在允许特性与值域范围内。复杂规则可将其与(2)及(3)流程结合运用,包括当实际数值不符合质量时的报警与对数值的纠正提示。

这些业务规则可用模板定义,具体如:1)值域模板说明数据项的指定值是从某个定义域中选用的数据值,如我国行政区划代码中的前2位代表省(直辖市、自治区);2)一致性模板以跨机构间一致理解与认可的数据内容与表示为前提,建立质量控制模板,控制以下4种一致性:(1)内容一致性

包括概念定义、要计算字段的算法、相应时间或本地的限制条件,精度规则等。(2)值域一致性

数据项的取值必须满足事先约定的数值、字典或时域范围,例如:大于0且小于100的数值范围等。(3)格式一致性

特定数据项的一种或多种格式数据项,如用4数字段+间隔格式来显示银行账号、电话号码等。(4)映射一致性

将一数据项的值映射到相应的其他等值域的不同表达,如IP地址通过DNS映射为相应域名。3)记录完整性模板通常在系统界面上,依据相应规则给出哪些输入数据项可省略、哪些不可缺失,以保证关键字段的完整性。4)正确性模板

模板将数据值与系统后台的相应标准值进行比对,以验证其正确性。5)唯一性模板此规则要求实体具有唯一性,要求仅有一条记录与对象相对应。6)关联性模板当输入某项数据时,与其关联的一条或多条数据项也显示并参与检验。

还有其他类型的规则模板等。规则模板的优点是将质量控制规则设计到业务进程中,通过内嵌规则引擎、数据分析组件、数据描述工具、标识代码比对库等来辅助数据质量管理。9.4.2.4数据质量监控模式对于政务数据质量是否符合业务规则,有针对数据流与数据批的2种测量监控模式;相应对象也有3种颗粒度:数据值、数据实例或记录及数据集;这就组成了6种可能的质量监测方案。如对数据创建时进行数据流测量,对长期存储的数据记录集进行数据批测量。将数据质量控制和测量流程嵌入政务业务处理流中,可实现持续性监控。但因此要测量整个数据集,故在数据量较大的情况下,测量不太可能以数据流方式实现,较为可行的是在不同处理阶段间隙进行数据集交互测量。表9-1给出了适合的监测技术用于相应的数据质量业务规则。9.4.2.5确定政务数据质量控制水平数据质量控制水平用于定义政务系统、特别是跨机构业务整合系统中,数据质量的标准符合程度。由于数据质量控制的水平、规模、范围与业务性质等均与成本相关,故确定合适的控制水平对系统的建设与运行颇为重要。虽然数据质量检查有助于隔离缺陷数据、分析其根源,提供在预定时间与范围内纠正错误根源的机制,但从表9-1也能看出,过深的控制水平需要系统在检索、运算、检测、比对、统计与校验等方面较大的开销与负担,导致成本增加和服务效能下降。因此,系统的数据质量控制水平应与相应的业务相适合即可。确定的常规数据质量控制包括以下内容:(1)控制涉及的政务数据项的范围。(2)数据缺陷形态及其对业务的影响。(3)与各数据项对应的适用数据质量维度,即指标体系的选择。(4)业务进程中各应用、源系统对数据项的质量需求,整合与共享时的需求。(5)针对数据质量需求采用的相应度量方法。(6)各项测量的可接受阈值范围。(7)当检测值超出可接受阈值时应通知的相关人员,期望解决问题的时间与限制。(8)建立质量问题的发现、报告、解决与学习机制等。9.4.2.6处理数据质量问题数据质量控制的设定与实施,需要建立质量事件/问题的发现、报告、解决与跟踪机制。数据质量事件报告是政务系统应当具备的能力,它能记录数据质量事件的评估、初步诊断和后续行动等信息,对问题纠正的跟踪还可提供结果报告,包括问题解决的平均时间、问题发生频率、问题类型、问题来源、纠正与消除问题的措施等。跟踪系统应支持查看当前与历史数据质量问题、问题状态和相关人员参与解决问题的条件等。许多政务系统已建立了跟踪软件、硬件及网络等问题的事件报告,应扩展到数据质量事件报告领域。为此,要将数据质量问题归类、纳入到事件目录中。还应能培训相关人员识别出现的问题,如何分类、记录并依据数据质量控制水平进行跟踪。这些步骤涉及以下环节:1)将质量事件标准化

各政务系统中描述数据问题的术语可能随本地业务、跨机构业务与整合业务的不同而有差异,将相关概念标准化,可使各机构对数据质量问题与现象取得一致的理解,简化对质量问题的认知、事件模式的统计、参与方之间的识别、质量改进措施的效果报告等。对问题的分类会随着事件跟踪和溯源而深入。2)指定质量问题的处理过程

操作程序应引导分析人员进行数据质量事件的诊断,制定解决方案等。该流程应在质量事件跟踪系统中驱动,并能向分析人员进行提示与建议等。3)管理问题报告程序数据质量问题处理取决于事件的影响、持续时间、问题紧迫性,以及问题上报体制。上报顺序应在数据质量控制水平中定义,由事件跟踪系统执行,以助于数据问题的判定与处理。4)管理数据质量解决流程

数据质量控制水平确定了监测、控制和解决问题的目标,定义了业务流程。事件跟踪系统支持工作流管理,跟踪质量问题的诊断和解决的进展情况。

质量问题跟踪管理系统,可训练作业与管理人员及早在业务流中发现问题,原始数据有助于生成质量控制水平与问题指标,可供数据治理进行统计分析与构建事件发现与解决模型。对一些普遍性问题,可通过跨机构的人员建立共识,开发出针对性程序与解决方案。9.4.2.7清洗与纠正数据质量缺陷数据质量控制有2项活动:一是确定并消除质量问题发生的原因,二是分离不正确的数据,采用适当纠正措施。错误发现后通常采用3种方法进行数据校正。自动校正参照数据质量要求,运用基于规则的标准化、范式化的纠正措施,对数据进行处理。可无须人工干预进行修正,如地址数据的自动补全与校正,这要事先将标准地址与代码放入库中,使用规则、解析、参照表、范式化等处理方式对输入的地址进行比对与补全。在良好定义的标准资源库、普遍接受的规则和已知的错误模式环境中,最适于进行自动清洗与校正。人工指导校正在1)的基础上,在将校正结果提交前先经人工审核。这需要设置一定的置信水平来判定。对超过特定置信度的自动校正结果可不作评审,但对低于置信度水平的校正,就需提交数据管理员审核和批准。结果可能是认可校正,或对未认可的校正进行调整,再决定是否将其纳入纠正规则中。敏感数据则需人工指导校正。人工校正数据管理员检查各种的无效记录,确定正确取值,校正后更新记录。9.4.2.8数据质量的持续性要求

数据质量管理是持续过程,为满足政务业务需求,应采用相关标准,制订内部规范,以保证数据质量能满足业务之需。它包括数据质量分析、数据异常识别、合规的业务需求与质量规则定义,根据已定义的数据质量规则进行检查和监控,相关的作业流程,以及数据解析、查验、清洗和整合等。数据质量管理还包括对问题的持续跟踪,对已定义的数据质量服务水平协议的合规性持续监控。

政务数据质量管理的持续性还体现在PDMA质量环上,凡控制规则、质量缺陷纠正等后均进入下一阶段循环中,周而复始运行。9.4.3元数据质量管理元数据是构建、定义与描述其他数据的数据,同时也是数据;故它们除应遵守9.3.1节的数据质量指标体系要求外,还因低质量元数据会影响其描述数据的质量与功能,故应对其质量要求予以特别关注。

9.4.3.1元数据的完整性与一致性

元数据也是数据,故上述数据质量控制要求与管理原则对元数据也基本适用。在电子政务大数据与云计算环境中,采用集中式或混合式元数据系统架构可建立覆盖全局、符合一致性、完整性与参照约束性等的元数据资源系统。在单一系统或多系统整合环境中,查询各元数据的来源,对其所含数据元的内容与格式的完整性与一致性进行比对,对梳理出的不合规对象进行处理。所以,对于元数据,完整性与一致性是其核心质量指标,能通过管理软件进行质量检验与控制。9.4.3.2元数据质量管理内容

在政务系统整合共享环境中,元数据作业涉及抽取、迁移、暂存、清洗、更新、发布、使用与维护等,故其质量管理就有多种内容与细致的过程。除应遵守数据质量管理的PDMA环外,还涉及以下技术、工具、制度与人员等:(1)元数据和存储库与备份、恢复、归档与清洗。(2)业务调试、监视、变更数据配置等。(3)元数据的抽取与装载统计分析。(4)元数据源的映射与迁移。(5)元数据变换与跟踪,其中又涉及:1、元数据管理指标的生成与分析,相关性能的调优。2、元数据查询结果的生成与呈现。3、用户界面管理。4、响应报告、冲突告警。5、版本记录与任务日志。6、对用户和数据管理员的培训等。9.4.3.3元数据质量管理体系

与传统的全面质量管理(TQC)体系类似,元数据质量也需要一套管理体系来维护,通过人工与系统比对方法来维护与控制。元数据质量管理体系可参照GB/T18391(ISO11179)系列,结合具体业务数据需求,对元数据在语义、语境、语用、语域等方面的描述,分类与标识代码,元数据注册的完整性,格式符合性和可靠性,及时性等方面建立完整的质量管理体系,并覆盖元数据的生成、结构、注册、存储、发布、使用与完善等环节。质量体系始终应关注人的因素。在政务系统、尤其是面向整合与共享的跨机构政务应用中,就应通过任命数据管理负责人,同时负责元数据管理,通过他们建立跨机构管理协调机制,针对业务需求设立元数据管理岗位、赋予相应职责等。还应注意,在多机构信息资源整合的环境中,因不同机构分属不同领域,各自的行政文化与管理理念等都存在差异,皆可能影响元数据管理。9.5政务数据质量治理9.5.1数据质量治理概述质量管理源于传统产业,主要针对拥有实体边界的实体对象、实体流程与服务等。尽管其主要理念、方法和工具等也适用于数字领域,但毕竟数字领域具有对象的虚拟性、边界的无形性、业务的流变性和环境的智能性等特点,导致传统质量管理理论与方法在一些方面力有不及,因此数字领域更提出数据治理的概念,将其应用于数据质量,就成为数据质量治理理念。数据治理是对数据资产管理行使权力和控制的活动集合(规划、监控、执行和提升),重点是指导机构从使用局部数据变为跨系统使用统一的数据资源,从具有较少或没有组织的流程治理到全局范围的综合数据治理,从处理分散数据资源到将其打造成一个全局整合的数据资产的过程。数据质量治理就是将上述理念具体应用于数据质量管理的过程,由国际数据管理协会(DAMAInternational)编写权威著作的《DAMA数据管理知识体系指南》中,就将数据质量管理视为与数据治理职能交互并受其影响的数据管理职能。因此,政务数据质量治理就是从政务系统应用全局的数据质量需求出发,在前述各节的内容基础上,开展跨机构、跨领域和跨边界的治理活动。DAMAInternational著《DAMA数据管理知识体系指南》马欢刘晨等译清华大学出版社2017年7月第1版P2139.5.2政务数据质量治理的流程

政务数据质量治理流程框架如图9-2所示,它需要针对具体政务应用,构建跨机构的治理流程。

图9-2流程框架有10个步骤,是围绕政务数据质量改进与提升的5个阶段,具体如下:(1)从全局定义电子政务业务数据的质量需求,分析与描述其运行环境与作业模式,将质量需求具体分解到不同机构的不同作业岗位,提出明确的要求。(2)评估各阶段的数据质量,特别是当有外部源数据进入、参与整合共享时的质量,质量波动对政务业务的影响,及其穿过边界对各机构作业与资源的影响等。(3)确定不合格数据的状态,特别是那些局部作业合格但不满足总体业务质量的状态,了解具体数据缺陷的起源及其对全局业务的影响。(4)从数据管理规程、整合共享、监测控制等方面提出数据质量比对、缺陷发现、问题判定、提示、多源协商、处理与纠正机制、机构边界内外转换等一系列的质量改进流程。(5)通过对政务流程、跨机构人员和整合预处等的前置控制,以及程序的必要的修正,将纠正质量问题的措施规程化,使系统能自动识别同类数据缺陷,开展预防性处理。而这些行之有效的前置处理、事中处理与事后纠正措施等将分发到各数据源机构,植入其数据质量体系中。在数据整合共享中各相关机构共同对数据质量的改进效果进行交流沟通与验核。9.5.3政务系统内外部的数据质量治理9.5.3.1系统内部数据质量治理数据质量管理向来是一项艰苦细致的工作。无论单一机构的政务系统,还是跨机构整合的政务系统,都应开展内部数据质量管理与体系验证。既保证合规数据在内部运行,又能将其贡献给关联业务机构。而低质数据将在系统整合时传输到关联系统中,会引起更大范围的低质数据。同时,即便适于单一机构质量标准的数据与管理体系,对于多机构整合系统未必是充分与完善的,于是,就有了跨系统的政务数据治理要求。各机构内的数据质量保证体系与全局性数据治理结合,是多机构业务整合的基础。单一机构内部的数据质量治理与前述质量管理的内容基本相同,主要为:①定义机构内部数据质量标准,(二)开展内部数据质量管理,(三)定义不合格数据,(四)数据质量分析,(五)数据质量测试,(六)缺陷数据根源分析,(七)制定数据质量检测方案,(八)开展内部数据质量管控,(九)机构内部质量意识的建立与强化,(十)机构内部的数据质量风险评估,(十一)机构内部数据质量提升方案,(十二)改进数据质量测试方案,(十三)实施数据质量改进方案,等等。9.5.3.2机构内部数据质量体系验证同样,为确保各机构向全局提供的数据是优质合格的,还需要一套质量体系来保证上述管理项的落实,并能向伙伴机构提供验证。相关工作具体如下:①建立数据质量验证目标;(二)提升本机构对参与共享/交换的数据规范化水平、质量可测性与可控性的贡献;(三)建立纠正机制,改进共享数据的质量测评能力,促进机构间数据质量管理方法和体系化的提升;(四)增进共享与交换型业务对数据质量需求、质量模型的理解,认识到本系统、本资源在共享前的局限性、质量完善与提升的必要性;(五)确定质量验证范围和方法,相关阶段与验证体统与支持体系;(六)明确本机构的数据主管部门中,数据管理人员、系统运管团队、数据主管、高层管理等对数据质量的职责;(七)明确数据审计部门、各验证职能部门与人员等在数据标准化与质量管理工作的职责;(八)明确数据标准化与质量管理的方法与验证范围、方法和阶段;(九)明确数据标准化与质量验证的结果与动态报告模式。9.5.3.3跨机构数据质量控制跨系统数据质量主要是其整合、共享与交换中的数据质量,它不是各来源机构的资源简单汇集,而往往是在第三方跨系统数据整合平台中再度加工处理,产生资源价值转移与提升中的质量。故其数据质量也不是各来源机构数据质量要求的重叠累加,还要针对资源再加工与装配后的质量。这些新增的数据质量要求主要如下。1)不合格数据定义

(1)确定资源加工与再加工中不合格数据的标准。(2)确定整合共享/交换前的数据抽样检测方案。

2)定义数据采集模型(1)定义待整合的数据模型。(2)定义跨系统元数据采集与比对模型。(3)定义跨系统数据元的收集与比对模板。3)数据标准化处理(1)分析共享系统中的元数据采集程序。(2)梳理待整合系统的数据标准,考察各机构的内部标准是否满足全局整合的需求。(3)对非标准元数据、数据进行比对、补充、转换等。

4)数据清洗(1)定义面向整合共享与交换的全局数据质量标准。(2)对非标准数据实施结构与格式转换。(3)按质量标准、各机构业务需求整合而成的新业务标准进行清洗、重构、增补,纠正可能的数据表达,内容、格式与编码错误等。5)数据质量分析

(1)查询并解决数据重复、不一致、元数据项缺失、不符合业务逻辑、异常数据、极端数据、孤立数据等问题。

(2)对参与整合共享的数据多机构分布情况、各家的数据贡献度、共享度、集成度、加工度、标准化程度、质量控制水平等进行定量与定性分析。

6)建立针对数据共享与交换的质量验证

(1)将整合共享数据(包含元数据、数据元素、代码、标识等等)划分为子样本集,建立提取、测试、验证的三套机制。

(2)检查抽取数据样本质量的代表性、充分性等。

(3)针对数据准确性、完整性、规范性等质量指标进行单因子或多因子分析评估,决定数据是否达到整合共享、交换与互操作的水平。9.5.3.4.6跨机构共享交换的数据质量验证

如前所述,参与跨机构数据整合各机构中任何一方的数据如有质量缺陷的话,这些缺陷不可能随共享与交换而消失,反而会随共享将缺陷传导到整合后的系统以及关联业务中。因此,建立数据共享与交换后的跨系统质量验证就显十分必要,它们涉及如下内容。

(1)跨系统间数据质量需求确认与管理体制与过程验证。(2)共享/交换中质量模型验证。

(3)参与各方的数据质量特性、测量参数与管理架构验证。

(4)交换建模中质量水平验证。

(5)跨机构数据质量交互验证,核心内容为:数据准确性验证;数据一致性验证;数据完整性验证;数据格式验证;数据缺陷处理验证等。

(6)验证与交叉验证间的相互确认与处理。9.6政务大数据质量管理简述人类已进入大数据时代,率先涉及该领域是电子政务。众所周知,政府均拥有全社会数量最大、门类最多且权威可信的信息资源,这也使政务数据质量管理面临大数据的挑战。它将对数据质量管理理念、方法和手段等都产生一系列影响。9.6.1传统环境与大数据环境的需求差异传统环境中,数据质量管理的模式与环境特点主要为:(1)绝大多数数据资源均来自各机构内部。(2)管理者重点关注结构化数据。(3)用户访问与处理的数据多形成于过去。(4)数据质量管理的目标是寻求每条数据记录的正确无误。(5)良好的数据资源需要长年积累建设。(6)各机构主要关注其现存数据资源。(7)业务用户需要借助信息技术来分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论