(计算机系统结构专业论文)数据质量分析中若干问题的探讨.pdf_第1页
(计算机系统结构专业论文)数据质量分析中若干问题的探讨.pdf_第2页
(计算机系统结构专业论文)数据质量分析中若干问题的探讨.pdf_第3页
(计算机系统结构专业论文)数据质量分析中若干问题的探讨.pdf_第4页
(计算机系统结构专业论文)数据质量分析中若干问题的探讨.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文摘要 论文摘要 当前,随着人类进入到信息社会,人们对信息系统的依赖程度也越来越深。当信息 系统中的数据量以指数级别增长的同时,数据的质量却没有得到足够的重视。尤其是 近几年在经济全球化的影响下,产品和服务的竞争变得空前激烈,从而对数据提出了 更高的质量要求。虽然数据的质量问题已经给人类的生产和生活造成了重大的影响, 但是该领域的研究目前尚处于萌芽状态,一个完整的理论体系架构尚未建立起来。在 诸如。什么是数据质量”这样最基本的问题上,研究者们尚未取得共识。本研究便是 在这样的背景下,结合实践中遇到的几个方面的具体问题,作了一定程度的探讨。 按照国际上目前通用的分类方法,数据质量分析可以分为两类,即背景相关和背景 无关的数据质量分析。前者指的是,根据数据所应该满足的业务规则,对数据的质量 情况进行分析;后者则是在相关的业务规则无法获得时,对数据的质量情况进行分析。 本文的研究为了解决企业数据所面临的具体问题,在背景相关和背景无关两种类型的 分析方面均有所涉及,其内容主要包括如下几个方面: 一、 背景相关的数据质量分析研究 数据质量分析标准在税务行业中的应用:选择了一些被广泛接受的数据质量 评价标准,并依照每条标准的定义,对某税务局的数据质量情况进行了具体的分 析。针对分析过程中发现的问题,并提出了相应的解决方案。 二、 背景无关的数据质量分析研究 1 中文环境下的错误短语识别:对于数据集中的字符型数据,特别是含有中 文的短语中所蕴含的错误进行识别。针对两类主要的中文输入法,拼音输入法和 笔画输入法的特点,对可能产生的错误类型进行了分析。为了发现与输入法无关 的其它类型的错误,采用了计算编辑距离的技术进行探测。 2 利用统计特征探索数据表之间的关系:数据表之间的相互关系在数据迁移 过程中有着重要的作用。而实践中这样的约束关系常常没有在数据库中显式地进 行定义,从而容易导致数据不一致的问题。本研究探讨了如何在数据质量不高的 东南大学硕l 学位论文 情况下,通过分析数据的统计特征,找出数据表之间可能存在的相互关系。研究 中特别运用了统计学中的极端反应检验理论。 3 基于模式识别的数据质量分析:分布模式反映了数据的本质属性。研究首 先探讨了如何对数据符合的模式进行识别:在此基础上,根据数据与模式的偏离 程度甄别出可疑数据项;根据对可疑数据项的进一步分析,识别出错误数据。 本研究是以一个具体的数据质量分析项目为研究背景,对分析过程中所运用的若干 技术进行了较为全面的阐述。实践证明,上述技术的综合运用对于协助企业发现数据 问题,提高数据质量,起到了重要的作用。 关键词:数据质量:数据质量分析;背景相关;背景无关: 中文输入法;编辑距离;极端反应检验:分布模式 n a b s t r a c r a b s t r a c t i i l f 0 衄a n o ni sc m c i a lf b ra l m o s te v e r y 硒p e c to fm o d e ml i f e p e o p l e ,b 璐i n e s s e s 卸d g o v 锄m 皿t sr e l ym o 佗卸dm o r e i i l f 咖砒i i nt h e i re v e r y d a yo p e 船芏i o n s c o n s e q u e n t l y t l l e q u a l i t y0 fi i l f 咖a t i o n o rd a t ah 器b e c o m ea 伊e a tc o n c e mf o rf i m sa i l dt l l e i rd i v i s j o 船 u i l f j d n u n a l e l y t 山ei m p 瞰柚c eo fd a t aq u a l i t yi n 山ei i i i o 衄a t i o na g ei su n d e r c s d m a t e d s n o n g c “d e n c e ss h o wt h a tt h e f ei sas i 倒f i c a mg a pb c t w 啪p e r c e p t i o n 姐dr e a l i t yr e g a r d i n gt h e q u a l i t y0 fd a t ai nm 卸yo 唱a i l i 刎。璐a t t h es 锄e 吐m e ,i n c r e 硒i n gr c s e a r c h e sh a v ea t t e m m c dt o d c f i n e 血t aq u a l i t y 锄dt oi d 即t i f yi t sd i m 朋s i o n sd 晡n gt h ep 豳td e c a d e h o w e v 盯 0 i l l y p i e c e - m e a l ,a dh o ct e c 量l i l i q u e sa r ea v a i l a b j ef o rm e 罄叫n g ,柚a l y z i n g 蛆di m p f o v i n gd a t aq u a l i t y , 锄dt h e r ei se v e nn ou i l i v e r s a 】a g e m e m 叩i t sd e f i i l i t i o n t h m f o f c ,w e 砸c dt o 百v e 卸锄a l y s i s o fd a t aq u “i t yo nt h eb 勰i so fe x a m p l e s ,w 1 1 i c hs h o w e dt i l ep o s s i b i l i t yf o rf h f t h 盯r c s e a r c h a c c o r d i n gt 0m ep i o n e e ri nt i l i sf i e l d 尉c h a f dw h g sd e f i n i 石o n ,鸹s e s s m e n c sa b o u td a 工a q u a l i c yc 卸b ed i 、,i d e dj n of w o 嘲p 韶:纽s k - d e p e 耐卸d 船k i l l d e p e n d t t 缸k - d e p e n d e n m e 喇c s , w 1 1 i c hi n c l u d ct h eo 唱a 1 1 i z 砒i o n sb 邯i n e s sm j e s ,c o m p 加y 锄dg o v 锄m e n tr e g i l l a t i o i i s ,a n d c o n s t 髓i n t sp r o “d e db yt h e 血1 抽a s ea d l i l l i s 仃a t o r a r ed e v e l o p c di ns p e c i f i ca p 曲c a t i o nc o n t e x s w h i l et a s k - i n d e p e n d e n tm e 砸c sr e n e c ts t a t e so ft h e 血t a 丽t h o u tt l 圮c o n t e x t u a ll m o w l e d 鲈o ft i l e a p p h c a l i o n 。卸dc 柚b ea p p c dt o 柚y d a t as c t ,他g 删e s s0 ft l i et a s l 【sa lh 如d r e s e a r c h e si nt h i s a n i c l ea c l 舔s 墒e da c c o r d i n gt ot h i sd e f i l l i 石o n 1 r e 辨a r c h e so ft a s k - 山! p e n dt y p e d a l aq u a l i t y 柚a l y s i sw 雒a p p l i c di nt h eb a c k g r o u n do fat a x 即v i r o n m e m t h e 呻b l e 咄 o fd a t a c o r d i n gt ot h e 耐d e l y 盯c e p i e dc o n c e p 协i nt h ef i e l do f 血诅q u a l i t yw e r e 柚a l y z c d b u s i n e s sm l e sw e r e 璐c di nt l l i sp r o c e s s 如da d v i c e sw e 佗画v 址t b e 即do ft h c ”s e a r c h 2 i k s e a r c h e so ft a s k - i d e p e d e n tt y p e 1 p i l r 勰ee r r o 巧w e 化i n v e s t i g a t c di nc l i i n e s ee n v i f o 衄e m n 讲皿脚l y c 1 1 i n e s ec h a r a c t e 璐 e n t e ri n f 疵a t i o ns y s t e m s “at w om a i ni 叩u tm e t h o d s m e t h o d sb a s e d p r o n 蚰c i 撕0 na n d m e t h o d sb 私e d 叩c h m c t e rs 仇l c n 般t h ep o s s i b l e 哪体r e l a t et ob o t ho ft l l e mw e 他 柚a l y z e d 卸d0 t b 盯】d n d so fi n p u t 锄俗w e r ed e “衙e db yc a l c u l a t i n gt h ec d i td i s 诅n c e b e 脚啪p h r 船e s 2 r e i a l i o n s l l i p sb e t w e c nt a b l e si nd 北山勰e sw e 佗e x p l o r e db y 璐i n gs t a t i s t i c a lm 劬o d s m 东南人学硕上学位论文 t l l e s er c l 撕s 如p sa r ei m p o n 锄td u r i n gt h ep r o c e s s0 fd a 诅i i l i f a t i o n h o w e v e r ,i np r a c “c e , n o ta l lo ft h e mc 柚b ef o 帅dc i t h e ri nd o c u m e n t so ri nt t l ed 撕b 筋e s t h ep r c s e n tr e s e a r c h u m i z c ds o m ea n a l y s i sm e t l l o d s i n c l u d i n gm o s e se x t r c m er e a c t i s ,d i s c o v 鲥n g 姐d 北b l l i l d i n gt h e mb yt h es t a t i s t i c a lc h m c t e i 暑o fd a t a 3 d a t aq u a l i t yw a sa i l a l y z e d t h eb 舔e0 fm o d e lr e c o g i l i 石o n s i n c ei n f o m a i i i sa m e t h o d 邺e dt od e s c r i b et h er e a lw o r l d ,i ts h o u l do b e ys o m ei l l t l e r e mm i 器,s u c h 鹤t h e l a t h e m 撕c a lm o d e l s a sas t e pi n t h i sd i r c 嘶,t l l ec o n 砸b 嘶a no ft l l i s 他s e a r c hw 豁 t w o f o l d :f i 巧t ,t h ei n h e r e n tm o d e l su n d c 订y i n gt h e 血诅w e r ed e 把删;t h e na b n 咖a ld a _ t a w 町ef o u n da c c o r d i n gt ot h em o d e l sr e c o g i l i z e d t 0s u mu p ,a l t - l o u g hag e n e m i i ya c c 钮t e dd e 石t l i t i 0 f 曲q l l a l i t yh 勰n o ta p p e a r c dy 吐, f e s e a 虻h 酣h _ t so ni th a v ea d d r e s s e das i 咖f i c 如ta d v 卸c ei ni t ss h o nl l i s t o 哆bt h i sr e s e a r c l i ,w e a v o i dt h ed i s c 璐s i 0 fb a s i cp 订n c i p l e s 山er e s e a r c h ,a n dp r o p o s o m em 毗h o d st od e a lw i t h p m c t i c a lp r o b l e m so f d a l aq u a l i 哪 k e y w o r d s :d a t aq u a l i t y ;勰s e s s m 如to fd a t aq 眦n t y ;t a s k d e p e n d ;t 船k - i n d e p c n d c m i n p 址m e t h o d s ;e d i td i s t a i l c e ;m o s e se x t 化m e 佗a c t i o 璐;m o d e lr o g n i t i i v 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了 谢意。 研究生签名: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复 印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和 纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办 理。 第一章绪论 第一章绪论 随着信息系统被广泛、深入地应用到人类生产和生活的各个方面,人们对信息系统的 依赖也变得越来越深。为了有效地支持日常运作和决策,要求信息系统中的数据可靠、无 误,能准确地反映现实世界的状况。遗憾的是,数据质量问题一直未得到应有的关注。一 方面是信息系统对高质量数据的迫切需求,另一方面是现实中不尽如人意的数据质量;其 间的矛盾越来越激化,每年给人类带来巨大的经济损失。国际数据仓库研究院2 0 0 2 年的一 份研究报告表明,数据质量的问题每年给美国带来超过6 0 0 0 亿美元的损失【l l 。数据的质量 问题对整个社会有着广泛和深刻的影响,但是到目前为止,人们在此方面的研究进展却还 很有限。 某地税局在长期的信息化建设过程中,积累了大量的数据。在数据深入利用过程中, 数据质量问题也日益显现出来,主要包括以下几个方面: 1 信息孤岛在中央关于。创建服务型政府”的指引下,为了更好地为纳税人服务, 实现地方政府的税收工作目标,需要改变以往信息系统间各自为政的局面,实现数据 共享。但是由于采用的数据库系统不同,以及设计过程中数据格式的不一致,阻碍了 数据有效地共享,形成“信息孤岛效应”。许多新设计的分析系统,如绩效考核、效能 监控系统等,往往直接从其它信息系统中拷贝数据,造成大量的重复劳动,不能实现 数据的有效共享。 2 数据不一致该局的信息化建设时间尽管有十年以上的历史,但是因为缺少对数据的 统一规划和设计,导致数据不一致的情况很严重。同样的基础信息,往往在多个系统 中存在。本质上相同的数据项,在各个信息系统中有各不相同的表现形式。此外,在 同一个信息系统内部,因为数据项间的引用关系没有显式地在数据库中进行定义,也 导致了大量不一致数据的产生。 3 数据不可信 数据被采集到信息系统的过程中,缺少必要的检验步骤。在发现数据 不正确的情况下,也没有合适的机制来反馈和修正错误。在遇到纳税人置疑数据正确 性的时候,往往采用直接修改数据的方式,来暂时满足客户的需求。此外,在数据分 析和汇总过程中,也经常发现数据不正确的情况。可以说,数据的正确性问题已经严 东南大学硕 :学位论文 重影响到该局税收工作的正常开展。 4 运行效率低下分析发现,信息系统设计时遗留下了大量的测试表在当前系统中。 其次,从历史数据库中导入的大量数据,因为编码格式与新系统不一致等原因,变成 了废弃的数据。再次,数据表间的引用关系复杂、主健缺失等原因,也严重影响了系 统运行效率,甚至会导致死机现象的发生。 以上这些问题,已经严重制约了该局信息化进程的进一步发展,对其达到全年税收增 长目标形成很大的制约。尤其在省局要求实现全省地税业务一体化的目标下,如何解决上 述问题,成为摆在该局面前紧迫的任务。而要解决这些问题,首要任务是对信息系统中存 在的各种问题进行具体的分析,尤其是对数据所存在的各种质量问题进行详细的分析。本 文对在此过程中所发展出来的一些方法进行了归纳和总结。 第二章研究背景 第二章研究背景 2 1 数据质量研究的范畴 数据质量相关研究的历史可以追溯到数十年前。早期,在统计学、数据库、信息系统、 数据流管理、项目管理和知识工程等领域内的研究人员,从不同的角度探索数据质量的定 义、测量标准、模型和方法等。研究的问题主要包括,重复记录的检测,缺失值的处理, 数据的失效性,异构数据源的集成以及数据抽取工具 e 1 r l ( 姗砌咖m m r d m 醐伽幻伽妇g ) 的设计【m 。尤其是最近十年数据质量的问题得到 了广泛、深入地研究,并取得了丰硕的成果刚”。 在基础理论方面,研究者试图对数据质量进行定义,并找出其影响因素。数据质量最 早基于数据正确性的观点进行界定。然而,不久该观点就受到越来越多研究者的挑战1 6 叫】。 虽然到目前为止还没有一个能被各方广泛接受的数据质量定义,但是目前影响最广泛的一 个观点就是“高质量的数据应该能充分满足用户的使用要求”。除此以外,还有以下几 种定义影响相对广泛: 1 数据质量指的是数据符合或者超出用户期望的特性; 2 数据质量指的是数据满足了特定规则或者特定需求的特性; 3 数据质量指数据对用户有较高价值的特性: 4 数据质量反映了数据在内容、格式以及时间上的特性,对最终用户的满足程度; 5 数据质量可以用人们对数据所期望的特性与所获得的数据特性之间的差距来表示。 理想状况下,所能获得的特性应该与人们对它的期望完全相同。数学上的表示为: 差距越小,数据质量越高。 6 数据质量指,数据满足生产者、管理者、消费者和数据分析专家,对数据在功能、 技术、认知和美学上要求的特征。 数据质量研究的另一个重要方面是关于影响因素的研究。典型的影响因素( 也即维度) 包括如下几个方面:准确性、可靠性、重要性、一致性、精确性、时效性、可读性、简洁 性、有效性等。w 抽d 和w 抽g 等人采用实体论中的相关概念来定义数据质量时,其 维度包括:完整性、明确性、有意义性和正确性。w 柚g 和s 们n 一”1 又进一步把数据质量的 3 东南人学硕十学位论文 维度分为四个方面:固有性,上下文相关性,代表性和可达性。s h k s 和d a r k e 则运用 符号理论,分别从句法、语义、实用性以及社会这四个层面,对数据质量的维度进行分析。 近来,k a h i l 等人l 圳从产品和服务的角度把影响数据质量的因素分为合理性,有用性,可靠 性和可用性这四种类型。显然,人员操作情况、管理特点、组织结构,以及技术和设备的 运用情况,均会对数据质量产生影响。w a n g 等人捌把数据与产业界中有形的产品进行了类 比。通过借鉴i s o 标准体系中的产品标准i s o8 4 0 2 ,w 抽g 阐明了数据这种独特的产品在 生产、使用和管理各个环节中各种因素对其质量的影响和作用情况。 在数据质量研究的短暂历程中,有至少三篇里程碑性质的文章。1 9 9 5 年,硒c h a r dw 卸g 等人2 3 1 发表了名为。af r a m e w o r kf o ra n a l y s i so fd a t aq u a l i t yr e s e a r c h ”的文章,由此揭开 了对数据质量进行全面、系统研究的序幕。该文中,研究者们首次提出将数据视为一种独 特的产品,并借用i s o 标准体系中的相关概念,阐述了数据这种独特产品的质量特征。1 9 9 8 年,l t i c h a r dw h g 在“ap r o d u c tp c r s p e c t i v e 仰t o t a ld a t aq u a l i t ym a 舱g e m c n t ”2 刁中,进一 步提出了对数据这种特殊产品产生影响的四个关键步骤。2 0 0 2 年,与其学生y 柚gw l e e 等人发表了“d a t aq u a l i t y a s s e s s m 印t ”【驯,从产品质量管理的角度出发,对涉及到数据质 量的各种影响因素进行了全面、详尽的分析。数据质量研究年会从1 9 9 5 年至今已经召开了 1 1 届,大大推动了该项研究的发展。除了以尉c h a r d w 抽g 为代表的全面数据质量管理( t 0 t a l d a t a q u a l j t y m 柚a g c m 印t ) 方向的研究外,其他学者也对数据质量的研究提出了各自的见解, 归纳起来可以分为三种流派:直觉的方法,经验的方法和理论的方法。各类方法的代表人 物和主要观点列表如下( 表2 1 ) 。 当前,数据质量的整个研究还很年轻,在一些基本问题上甚至还存在很大的争议。但 是在人们生产和生活的各个方面,数据质量研究已经开始逐渐显现其巨大的作用。其中研 究最早、也是应用最成熟的,是工业生产过程中的异常数据识别瑚。企业数据的质量问题 是目前研究最广泛的领域簿3 2 1 ,其中又分为关系数据库、数据挖掘系统1 蚓、决策支持系 统瑚、客户关系管理系统3 6 3 刀和供应链管理系统删等应用系统中的数据质量研究。近年来 随着网络的兴起,电子商务3 9 1 ,网上非结构化数据的质量分析瓤h 2 1 也取得了丰硕的成果。 此外,在金融4 、保险钥、生物化学1 4 8 删、医疗孙5 列、国防5 6 1 和公共事务5 刀等方面,数 据质量分析也取得了广泛的应用。 4 第一章研究背景 表2 1 几种主要的数据质量研究方法 5 东南大学硕j :学位论文 2 2 数据质量研究的基本分析方法 数据质量分析方法大致分为两类,即背景相关型和背景无关型【刎。背景相关型的数据 质量分析认为数据总是和一定的应用相关,相应地应该满足特定的业务规则。这类研究通 过分析数据对业务规则的满足情况来发现数据存在的问题。业务规则通常包括两方面的内 容,应用所在的特定行业标准以及基础数据部分所应该满足的公共标准。例如,国家规定 餐饮业的税率为2 ,即为行业标准;此外,大多数信息系统需要记录人员信息。在记录人 员信息的数据中,身份证号码所应该满足的位数( 1 5 位或者1 8 位) 则为公共标准。对数 据的质量情况进行分析时,应该对行业标准和公共标准的符合情况同时进行考察,这样才 能获得对数据比较全面的评价。相对而言,背景相关型的分析较多,因为它常常可以得到 比较确切的分析结果。例如,在金融和保险领域对欺骗行为的识别,以及在零售领域对客 户信息有效性的判别等。 然而在实践中我们发现,很多时候要发现数据所应该满足的业务规则信息比较困难。 数据质量较差的那些信息系统,往往也缺少必要的业务说明文档、数据库说明文档和维护 文档。而且由于数据量较大等原因,无法获得所有数据详细的业务规则,更多的时候必须 进行背景无关型的分析。到目前为止,文献记录中对背景无关型的研究相对较少。这一方 面是因为选择合适的评价标准比较困难;另一方面在于该类型分析常常不能给出确切的分 析结论。因此在数据质量研究领域中,还存在一类研究专注于对数据源进行信息的识别和 提取,并根据提取出来的信息生成知识库;然后再结合公共标准和行业标准,对数据进行 背景相关类型的分析。例如上面提到的身份证号码,通过对数据集中各个数据项的数值特 征进行分析,可以判断出哪个数据项代表了身份证信息。根据身份证所应该满足的规则, 进行背景相关型的分析,就可以发现那些错误的数据( 例如假身份证) 。 当前数据质量分析主要还是依靠手工方式,自动化的分析工具尚未出现。然而,企业 所拥有的数据却是海量的。要对如此大量的数据进行处理,自动化的分析工具必不可少。 此外,还应该能把分析结果自动生成报告和图表。只有这样,才能使数据质量的研究成果 惠及大众。特别是,如何根据公共标准和行业标准产生出一个类似于专家系统的自动分析 工具是未来研究的一个很重要的方向。该工具不仅可以对数据源进行信息的识别和提取 还能够自动进行背景相关型和背景无关型的数据质量分析,并以丰富多彩的方式把分析结 6 第二章研究背景 果展现出来。数据质量研究领域中各个组成部分及相互关系如下图所示: 图2 1 数据质量分析的体系结构 本文根据研究项目数据的特点,对背景相关型和背景无关型两类研究均进行了探索。 其中有小部分数据,通过查阅文档、发放调查表等方式,整理出了其业务规则,并进行了 背景相关型的分析;而大量的数据,因为上述的种种原因无法给出对应的业务规则,对此 进行了背景无关型的数据质量分析。下面将分别对这两种分析方法进行详细介绍。 第三章背景相关型的数据质罱分析 第三章背景相关型的数据质量分析 背景相关型的数据质量分析需要结合具体的业务规则对数据的吻合情况进行分析。因 为该类型的分析在业务规则比较明确的情况下往往能获得确定的分析结果,所以被研究者 广泛采用。通常,业务规则的获取可以通过查阅文档,发放调查表,以及与开发人员和用 户进行访谈等方式取得。为了选择合适的评价标准,本研究搁置了不同流派在具体理论上 的争议:而是从实践的角度出发,从各类理论体系中挑选出有代表性的考察标准。依照这 些标准,对数据集中一些相对重要的数据项进行了背景相关类型的分析。针对分析过程中 发现的问题,并给出了相应的解决方案。 3 1 数据质量考察标准 当前被广泛接受的观点认为,数据质量反映了数据对特定应用的满足程度( 6 协e 踮f 研 啦e ) i 蜘。根据这种观点,数据是应用程序的初始原料和最终产品,并经过应用程序的组织 提供给用户。同样的一组数据,面对不同的应用要求,可能表现出不同的质量。但作为 一种特殊的产品,数据在反映客观世界,完成信息传递功能的同时,应该具备一些最基本 的属性。这些基本属性有如下几个方面: 1 可达性可达性是数据应该满足的首要特性。数据是用来支持具体应用的,但不 是应用所要求的所有数据均能被自由获取。有多种原因可能产生可达性的问题。比 较常见的情况是,在对信息系统进行升级换代的过程中,可能导致原系统中的数据 不可访问。可达性问题对数据挖掘、趋势分析等类型的应用影响最显著。计算可达 性的方法为:可达性= 应用所能获取的数据量,应用所要求获取的数据量。 2 正确性 所谓数据的正确性是指数据在多大程度上正确反映了现实世界。由于现 实世界总是处于不断变化中,所以正确性会随着时间的推移而变化。正确性是数据 所应该具备的最根本属性,但在实践中却很难直接衡量。人们往往通过考察完整性、 一致性和时效性,对其进行间接考察。 3 完整性 完整性表示信息的完整程度。完整性包括三个方面的内容,分别是实 体完整性、引用完整性和域完整性。实体完整性要求数据表中的每一条记录必须是 唯一的;引用完整性对关系数据库中表之间的引用关系进行了约束;域完整性则要 求表中域的数值在合法的范围内。 r 东南大学硕l :学位论文 4 一致性一致性用于衡量数据集中各部分数据对于同一标准的吻合程度。在实践 中,因为业务变动以及系统升级等原因,一致性标准常常被破坏。 5 ,时效性时效性用于考察数据的时间特性对应用的满足程度。数据作为一种特殊 的产品,有其独特的产生、发展和消亡过程。不同类型的应用对数据时效性的要求 也不尽相同。例如,大多数联机操作都要求实时数据;而月报、年报,对数据的实 时性要求相对较低。 6 ,相互关系数据质量的上述几种属性并不完全是并列的,它们之间有一定的层次关 系。其中,可达性是数据应该满足的首要特性。正确性是数据质量的根本属性。完 整性、一致性和时效性,从几个方面对正确性进行考察。完整性从数值的合法性角 度考察数据的正确性;一致性从数据对业务逻辑的符合程度去考察;时效性从数据 这样一种特殊产品的生命周期来考虑。数据质量几个特性间的关系如下图所示: 可达性 f l数据源 图3 1 数据质量各特性间的关系 3 2 实例分析 某市地税局从1 9 9 4 年建立第一个税收系统至今,其信息化建设取得了丰硕的成果。但 由于缺少统一规划,导致信息系统建设整体质量不高,数据质量下降严重,目前已经严重 制约其信息化的进一步发展。本研究从上述几个方面的标准对其数据进行了详细的分析, 发现了不少问题。 9 第三章背景相关犁的数据质晕分析 1 可达性分析该局2 0 0 4 年8 月上线了一个全新的税收信息管理系统。与原先采 用s y b a s e 数据库不同的是,新的信息系统采用了o r a c l e 软件产品。此外,因为对 原系统继承不够,新的信息系统在数据格式、系统架构等方面,与原系统存在较大 的差异。新系统上线后,仅有少量的基础数据被迁移过来,而绝大多数历史数据被 遗留在老信息系统中。这样,尽管日常的联机事务处理可以得到满足,但是大量统 计、分析类的应用不能很好地运用历史数据,从而产生可达性的问题。 2 完整性分析完整性的定义包括三个方面,即实体完整性、引用完整性和域完整 性,下面分别进行阐述: 1 ) 实体完整性分析实体完整性要求数据表中的记录是唯一的。不满足实体完 整性的数据集,会存在大量的重复记录,影响数据的正常使用。实体完整性可 以通过对数据库添加限制来保证。例如,设定数据表中的关键字,设定唯一值 等等。通过对数据表的结构进行扫描,发现有5 左右的数据表,没有在数据库 中设定对实体完整性的限制。更深入的分析还发现了在一些数据表中确实存在 重复记录的问题。如在某个记录了人事信息的数据表中,共有记录3 7 5 条,其 中重复记录就有5 条。 2 ) 引用完整性分析分析发现,引用完整性存在引用过多和引用丢失两方面的 问题。例如,在“r e g 一纳税人基本信息”表中,除了纳税人姓名、纳税人识别 号、批准日期、开业日期等信息外,还包括了许多外键关联,如征收方式代码, 核算形式代码,隶属关系代码,征管方式代码,地理位置代码,企业规模代码, 经营模式代码,企业财务制度代码,行政区划分代码,收入归属代码,管理代 码,征收属性代码,稽查代码等。鉴于该数据表中的记录量在5 0 万条左右,数 据的访问性能因为过多的外键引用而变得很低:另一方面,数据表之间大量的 引用关系没有在数据库中进行显式的定义,从而造成了许多不一致情况的产生。 本文的第四章将重点探讨如何通过数据的统计特征发现数据间的引用关系。 3 ) 域完整性分析域完整性要求数据表的域( 或称属性) 其数值在该域的合法 数值范围内。研究进行了两种类型的分析,一种是根据数据的值域范围对其进 行正确性验证;另外一种针对有些数据项不能为空的要求,对其空值情况进行 1 0 东南大学硕_ l j 学位论文 了分析。在第一种类型的分析中,特别对数据项不能小于零的情况进行了分析。 该类型中,常见的数据项有投资额、费率、上缴税款等。例如,在一张有着2 0 0 多万条记录的表中,发现费率小于零的情况占到了万分之2 2 6 。相应地,在空 值分析过程中,也发现了很多关键数据项出现空值的情况。 3 一致性分析该局在对信息系统升级的过程中,由于没有对原系统很好地进行继 承,导致了不少一致性的问题。例如,原系统中的。失踪户”与新系统中的“失效 户”指的是同一类纳税人;再如,南京大学的地址出现了“南京汉口路2 2 号”、。南 京市鼓楼区汉口路2 2 号”等多种情况。因为编码格式的调整而导致数据不一致的 情况更为常见。 4 时效性分析通过对数据时效性的分析,发现现有数据的更新率基本可以满足应 用的需求。例如,针对分析报表一类的应用,该局设立了专门用于查询分析的数据 库系统,并且每隔半天更新一次数据;针对决策支持一类的应用,设立了独立的数 据仓库,每隔一天更新一次数据。因为有强大的硬件支持,所以基本不存在数据时 效的问题。为了对数据的时效性进行深入地分析,研究监测了表的数据增长情况, 并通过监控系统表( 例如在o r 扯l e 数据库中的表v $ s q l ) 中的s q l 语句,对数据 被访问的情况进行监测。结果发现,有不少数据表在半年的监测过程中,没有任何 数据量的变化,甚至根本没有被访问到。有些数据表中甚至没有任何数据。在征管 数据库的1 4 7 0 张数据表中,就有6 8 3 张数据表在整个检测过程中没有任何数据量 的变化。各种迹象表明,这些数据表应该是被废弃了。 3 3 对策及解决方案 上面分析所发现的问题,既有关于数据项的正确性、完整性方面的问题,也有涉及 到数据体系结构方面的问题( 例如:可达性、时效性等) 。为了解决上述问题,本文 提出并实施了下述的合理步骤。 1 对文档进行整理 阅读信息系统的各类文档,包括业务说明文档、数据库说明文 档、维护记录等,是人们了解该系统最主要的方式。即便是通过访谈以及发放调查 表的方式来了解信息系统,最终也应该以文档的形式记录下来。可以说,文档与数 据密不可分。但在实践中发现,有大量的数据,甚至是一些重要的数据,没有相关 1 1 第三章背景相关埤! 的数据质黾分析 的文档说明。此外,经过对文档进行深入、细致的分析,也发现了很多与实际不吻 合的地方。所以,数据质量分析的第一步是要对文档进行整理:对于缺失的文档要 补齐;对已有的文档,要根据现实情况对其中不正确的地方进行修改。 2 改善可达性 根据前面的分析,导致可达性问题有两个主要原因。它们是对历史 数据的访问问题,以及异构系统问的信息交换和共享问题。对于前者,可以通过数 据迁移的方式,将历史数据加载到新的信息系统中;对于后者,则可以通过建立数 据库互联来达到数据交换和共享的目的。 3 统一数据源完成数据库之间的互联后,需要统一各个应用系统的数据来源。这 样可以从根本上避免数据不一致问题的产生。当前比较成熟的做法是采用 o d s ( o p e r a n o n a ld a t as t o r e ) 技术创建统一的数据源。该过程中,因为涉及到众多当 前正在使用的业务系统,所以必须制定计划逐步解决。这其中不可避免地会遇到数 据表和字段名称的改变等问题。通过采用视图以及同义词的技术,可以很好地解决 上述问题,保证应用的平滑过渡。 4 提高正确性在前面完整性和一致性的分析中,已经发现了很多错误。要修正这 些错误,需要建立一个合理的反馈机制对这类的问题进行识别和修改。传统的做法 是,当发现问题时直接对数据进行修改。这样看似解决了当前问题,但是却带来无 穷隐患。所以有必要建立长效体制,来发现数据存在的问题,对发现的问题进行评 估,并依据合理的步骤逐步解决。在此建议下,该局通过设立额外的数据审查岗位, 对一些重点数据的录入进行校验,大大提高了这部分关键数据的正确性。 5 提高时效性在上面进行时效性分析过程中,已经发现数据库中存在大量废弃的 数据表。这类数据表应该通过安全的手段从数据库中最终清理出去。另外对于准实 时性质的应用,可以通过增量更新的方式,提高数据的时效性。 6 对潜在问题进行探测采用数据挖掘的方法,如常见的聚类、关联规则等,可以 发现潜在的数据异常。这类方法强调自动化地解决数据质量问题,并且主要用来发 现未知的数据错误。在此基础上,可以对发现的问题进一步细化分类,并对每一类 问题设计一个专门的程序分别进行处理。改善数据质量不是一个一次性的过程,而 是几个相关活动不断循环的过程( 图3 2 ) 。 东南大学硕i :学位论文 i 弋型 图3 2 提高数据质量的四个关键步骤 3 4 小结 工业界已经产生了严格的产品质量标准。遗憾的是,在计算机科学领域,对于数据这 样一种特殊的产品,人们目前还没有统一的标准来衡量其质量。本研究选择了数据质量研 究中被大家广泛接受的几条准则,以地税为具体的行业应用背景,对其数据进行了一次具 体的分析。分析钓结果表明,该局信息系统的数据质量不容乐观。 实践中还发现,随着信息技术的发展,当前企业所拥有的数据量往往很大。以该税务 局的信息系统为例,其数据库中表的总数超过八千个;而且有数十个数据表的记录量在千 万条的数量级上。面对这么大量的数据,试图找出所有的业务规则并进行分析,成为一件 困难甚至是不可能的任务。在这种情况下,背景无关类型的数据质量分析就成为了合适的 选择。 夕 第四章背景无关犁的数据质罩分析 第四章背景无关型的数据质量分析 当缺少与数据相关的背景知识,无法找到数据所应该满足的规则来进行背景相关的数 据质量分析时,就只能进行背景无关型的分析。这类分析的特点在于,仅仅凭借极其有限 的知识,就可以找出数据集中异常,甚至是错误的数据。与背景相关型的数据质量分析所 不同的是,该类型分析的结果往往依概率给出,故而存在一定的不确定性。 背景无关型的数据质量分析通常包括两步。第一步,寻找规则这通常意味着对数 据集进行分析,找出其满足的内在规律;第二步,应用规则在假定规则正确的情况下, 分析数据集对规则的满足程度,并据此筛选出异常数据。在此过程中第一步尤其重要。 本章中针对背景无关型的数据质量分析做了三个方面的探索。在中文环境下如何发现 短语错误的研究中,利用了汉字的发音和结构特点,寻找中文短语中可能隐藏的错误。而 在利用数据统计特征探索数据表之间的关系时,则主要研究了如何探索数据表之间的数据 引用关系和主从表的关系。最后,利用模式识别进行数据质量分析的方法阐述了如何发现 数值的分布模式,并从而发现可能的异常数据。 4 1 中文环境下如何发现短语的错误 本研究的目的在于探讨如何发现字符型数据的错误,尤其是当数据中含有中文字符的 情况下,如何根据中文输入法的特点对可能的错误形式进行识别。以该局的车辆型号数据 为例,详细介绍了如何对数据中蕴涵的各种错误进行一步一步的分析。并从两类中文输入 法,即拼音输入法和笔画输入法的特点出发,寻找如何去发现由此带来的文字输入错误。 研究中还引入了计算编辑距离的方法来发现各种类型的其它错误。最后对该方法的特点进 行了总结。 4 1 - 1 数据的预处理 以一张记录了全市车辆购买情况的数据表为例,介绍如何对字符型数据的错误进行分 析。该表的记录数目超过7 1 万条,本研究选取其中记录了车辆型号的数据项。分析的第一 步是要取出这些数据项。通过查询数据表得到了各不相同的2 5 3 8 条记录各种车型信息的短 1 4 东南大学硕i :学何论文 语。通过对这些短语的初步浏览,发现表中的数据项存在很多不规范的连接词,例如,“一、 “”、。一、“”、。一”和。一”等等( 注意半角和全角字符的区别) 。这使得同一个单 词出现多种形式。“邦德富士达”、“邦德。富士达”、。邦德一富士达”和。邦德富士达”, 本质上即指的是同一种车型,即“邦德富士达”( 一种由天津富士达公司生产的电动车) 。 为了便于对短语进行比较,首先对连接符进行过滤。研究中规定,表示车辆型号的短语应 该由汉字、英文字母和阿拉伯数字组成。其它的字符均为连接字符,需要被过滤掉。因为 各种类型的字符集,包括简体汉字、繁体汉字、韩文、日文,以及英文字母和数字等,在 计算机中都采用了指定的编码来表示。标准化组织u 】m c o d e 对各个字符在编码表中的位 置有详细的定义【6 5 】。只要保证把从数据库中取得的数据按照双字节进行处理,查找其编码 范围就可以了。经过这样的过滤,前面2 5 3 8 条形形色色的短语,转化为2 0 1 5 条规范化的 短语。结果发现,一条规范化的短语可能代表了前面多个表述不一致的短语,其中最多的 一个竟然代表了前面的1 2 条。进一步的研究将围绕这2 0 1 5 条过滤过的短语而展开。 4 1 2 基于输入法的错误分析 要对短语中的错误进行分析,应该首先了解错误是如何产生的。汉字作为世界上最古 老的文字之一,兼有读音和形态两个方面。相应地,也就有拼音输入法和笔画输入法两种 主要的汉字输入法,由此带来两种形式的输入错误。 1 拼音输入法类型的错误分析汉字总数有8 万多,其中最常用的也有约4 千个。 而汉字的基本发音只有4 0 0 种。所以,不可避免地,存在着许多汉字它们的发音是 相同的。无论采用何种拼音输入法,用户往往要在一堆读音相同的字符中选出他想 要的汉字,这样错误发生的机率较大。为了发现那些因为读音相同而输错了的字, 首先对上述过滤过的短语进行读音翻译。这样,2 0 1 5 种短语翻译得到1 8 2 5 种不同 的读音。进一步将具有相同读音的短语进行分组,结果发现短语数在2 个或者2 个 以上的有1 “组,部分高达4 个。例如,读音同样为。s a n u n g ”的短语就有: 三菱、三岭、三凌和三铃。而其中正确的只有第一个,即“三菱”( 一家日本的汽 车制造公司,英文名为:m r r s u b i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论