(计算机应用技术专业论文)数据仓库技术在税务行业的应用.pdf_第1页
(计算机应用技术专业论文)数据仓库技术在税务行业的应用.pdf_第2页
(计算机应用技术专业论文)数据仓库技术在税务行业的应用.pdf_第3页
(计算机应用技术专业论文)数据仓库技术在税务行业的应用.pdf_第4页
(计算机应用技术专业论文)数据仓库技术在税务行业的应用.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文的撰写是建立在一个实际项目的基础之上的,即由北京荣泽有限公司主 持开发的北京市丰台地税局综合信息管理服务平台。 随着税务部门信息化建设水平的不断提高,使各级税务部门积累了大量的业 务数据,然而这些数据却成了一些“信息孤岛”,缺乏有效的集成,它们很难为 管理层的决策支持作出比查询更多的贡献。如何充分利用这些宝贵的数据,从中 总结出税收工作的发展规律,为税收管理、政策制定提供依据,是税收信息化发 展过程中面临的一个重大课题。同时,税务管理任务从粗放型管理向精细型管理 的转变,从强制型管理向威慑型管理的转变,也必须采用一些先进的分析手段, 为管理者和决策者提供统一的应用服务系统。为此,本文讨论建设税务数据仓库 系统,以便能够好地为税务管理人员服务,提高其决策质量和效率。 本论文在熟悉税收业务和现有税务管理信息系统的基础上,探讨在税务系 统建设税务数据仓库的方法和步骤,设计了税务数据仓库的数据模型和体系结 构,研究各种建立数据仓库的数据预处理中的数据清理、转换和加载的方法和 策略。研究了数据仓库的逻辑设计和物理设计,建立了税务数据仓库系统。并 在已建立的税务数据仓库基础上建立o l a p 数据库及o l a p 立方体,利用关联规 则算法对税务数据仓库中数据进行挖掘,从而指导税收工作,得出供税务各级 领导分析和决策的信息。 通过应用数据仓库技术,对税务系统的内部和外部数据进行综合分析处理, 解决了三个方面的问题:一是查出应纳税未申报者和偷税漏税者,并对其进行 跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍 规律,谋求因势利导的税务征稽策略;三是对不同行业、产品和市场应收税款 进行预测,制定有效的征收计划。通过建立数据仓库,解决了抽取汇总的数据 缺乏可信性问题,保证数据抽取时间的一致性和排除了层层上报易产生误差。 解决了无法查询数据或效率低,理清了数据间的十分复杂关系,加强了联系。 通过定义同样的数据结构和不同层次粒度问题,解决了多个应用系统集成问题。 在论文的最后总结了本文取得的成绩,同时也指出税务数据仓库的下步 工作以及本文的不足之处。 关键词:税务,数据仓库,数据挖掘,o l a p ,关联规则 a b s t r a c t t h e w r i t i n gi sb a s e do na na c t u a lp r o j e c t ,b e i j i n gf e n g t a il o c a lt a x a t i o nb u r e a u c o m p r e h e n s i v ei n f o r m a t i o nm a n a g e m e n tp l a t f o r mt h a td e v e l o p e db yb e i j i n gr o n g z e l i m i t e dc o m p a n y w i t ht h er a p i dp r o g r e s si nt h eb u i l d i n go fi n f o r m a t i o n ,at r e m e n d o u sa m o u n to f d a t ah a sb e e ng e n e r a t e di nt a x a t i o nb u r e a u h o w e v e r , t h e s ed a t aa r ep l a c ed i s t r i b u t e d , m e a n i n gd i f f e r e n t i a t e d ,i ti sh a r dt or u mt h e s ed a t ai n t ou s e f u li n f o r m a t i o n t h e yn e e d t ob ei n t e g r a t e d ,t r a n s f o r m e d ,c l e a n e d ,e x t r a c t e da n dl o a d e dt od a t aw a r e h o u s ew h i c h h e l pt oc h a n g et h ed a t ai n t o k n o w l e d g en u g g e t s h o wt om a k ef u l lu s eo ft h e s e v a l u a b l ed a t a ,w h i c hs u m m e du pt h ed e v e l o p m e n to ft a xl a w s ,t a xa d m i n i s t r a t i o na n d p r o v i d et h eb a s i sf o rp o l i c y - m a k i n g ,t a xi n f o r m a t i o n i sam a j o ri s s u ef a c i n gt h e d e v e l o p m e n tp r o c e s s m e a n w h i l e ,t a xm a n a g e m e n tt a s k s f r o me x t e n s i v em a n a g e m e n t t of i n e - m a n a g e m e n ta n dt h et r a n s i t i o nf r o mm a n a g e m e n tt od e t e rc o e r c i v e 。t y p e m a n a g e m e n t ,a n dw ea l s on e e dt ou s ea d v a n c e da n a l y t i c a lt o o l sf o rm a n a g e r sa n d d e c i s i o nm a k e r so fa p p l i c a t i o n st op r o v i d eau n i f i e ds y s t e m a n do r g a n i z a t i o n sn e e d t h es u i t a b l ek n o w l e d g et oo p e r a t et h e i rb u s i n e s s f o rt h a t ,b u i l d i n gad a t aw a r e h o u s e i nt a x a t i o nb u r e a uc a nh e l pt os e r v em a n a g e r sm o r ec o n v e n i e n t l yt om a k eu pt h e i r d e c i s i o n s t h et h e s i sd i ds o m er e s e a r c ho nh o wt ob u i l dt a x a t i o nd a t aw a r e h o u s eo nt h e b a s i so fb e i n gf a m i l i a rt ot h et a x a t i o nb u s i n e s sa n di t sp r e s e n ti n f o r m a t i o ns y s t e m s w ed e s i g nt h ed a t am o d e la n dt h ea r c h i t e c t u r eo ft a x a t i o nd a t aw a r e h o u s e ,g i v et ot h e s t r a t e g yo fr e a l i z i n gc o n c e m i n gt od a t ac l e a n i n g ,i n t e g r a t i o n ,t r a n s f o r m a t i o na n d d a t a l o a di nd a t ap r e p r o c e s s i n g a n ds t u d yt h el o g i c & t h ep h y s i c so ft h ed a t aw a r e h o u s e d e s i g n ,f u r t h e rw eb u i l dt h et a x a t i o nd a t aw a r e h o u s e o nt h eb a s eo fi t ,w eb u i l dt h e o l a pd a t ab a s ea n do l a pc u b e ,a n dm i n et h ed a t ao fd a t aw a r e h o u s ei na a s s o c i a t i o nr u l em i n i n gs y s t e m s ow ec a ng e tt h em e s s a g e ,t h a ti ti sv e r yu s e f u lf o r t h el e a d e rt oa n a l y s i sa n dd e c i s i v e ,a n dt h a ti n s t r u c te f f e c t i v e l yr e v e n u ew o r k t h r o u g ht h et e c h n o l o g yo ft h ea p p l i c a t i o no fd a t aw a r e h o u s et e c h n o l o g y , a n d g e n e r a l i z e da n a l y s i st h ep r o c e s s i n gi n t e r i o ra n de x t e r i o rd a t ao ft h et a x a t i o ns y s t e m , i i t h e s y s t e mh a ss o l v e dt h r e ea s p e c t sp r o b l e m s :f i r s t ,f i n d st h a ts h o u l dn o tp a yt a x e s t h ed e c l a r a t i o na n de v a d i n gt a x e s ,a n dc a r r i e so nt h et r a c kt oi t ;s e c o n d ,t oi nt h e d i f f e r e n tp r o f e s s i o n ,t h ep r o d u c ta n dt h em a r k e tt a x p a y e r sb e h a v i o rc h a r a c t e r i s t i c w h i c hc a r r i e so nt h ed e s c r i p t i o n ,d i s c o v e r st h eu n i v e r s a ll a w , s e e k st h et a xa f f a i r s w h i c ha d r o i t l yg u i d e sa c t i o na c c o r d i n gt oc i r c u m s t a n c e st od r a f tc h e c k st h es t r a t e g y ; 1 1 l 硼,t ot h ed i f f e r e n tp r o f e s s i o n ,t h ep r o d u c ta n dt h em a r k e tr e c e i v a b l et a xm o n e y c a r r i e so nt h ef o r e c a s t ,f o r m u l a t e se f f e c t i v e l yl e v i e st h ep l a n t h et a x a t i o nd a t a w a r e h o u s ew h i c hh a v eb e e ne s t a b l i s h e d ,h a v es o l v e dt h ed a t aw h i c he x t r a c t e d c o m p i l e st ol a c kt h ec r e d i b l eq u e s t i o n ,g u a r a n t e e dt h ed a t ae x t r a c tt i m et h eu n i f o r m i t y a n dr e m o v e dl a y e ru p o nl a y e rr e p o r t e de a s i l yt oh a v et h ee i t o lt h ep r o b l e mw h i c h h a sb e e nu n a b l et oi n q u i r et h ed a t ao ri t sl o we f f i c i e n c yh a sb e e ns o l v e d ,a n dh a s c l e a r e do f ft h ed a t ae x t r e m e l yc o m p l e xt or e l a t e ,s t r e n g l 【h e n e dt h er e l a t i o n a l s o , m a n ya p p l 姗i o ns y s t e mi n t e g r a t i o np r o b l e mh a v eb e e ns o l v e dt h r o u l g ht h ed e f i n i t i o n s i m i l a rc o n s t r u c t i o no fd a t aa n dt h ed i f f e r e n tl e v e lg r a n u l a r i t yq u e s t i o n f i n a l l y , is u m m e du pt h i sp a g e ,a n dp o i n t e do u tt h et r e n do ft h et a x a t i o nd a t a w a r e h o u s es y s t e ma n dt h es h o r t c o m i n go ft h i sp a g e k e yw o r d s :t a x a t i o n ,d a t aw a r e h o u s e ,d a t am i n i n g ,a s s o c i a t i o nr u l e s ,o l a p i l i 独创性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得武汉理工大学或其它教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 研究生签名:班日期 关于论文使用授权的说明 趔:丝形 本人完全了解武汉理工大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅: 学校可以公布论文的全都内容,可以采用影印、缩印或其他复制 手段保存论文。 ( 保密的论文在解密后应遵守此规定) 研究生签名:透导师签名:但 日期导师签名:! 兰兰2日期 武汉理工大学硕士学位论文 第1 章绪论 1 1 论文研究背景和意义 伴随着税务系统信息化建设水平的不断提高,税务部门几乎已经实现了信 息系统在事务处理方面的全面应用。然而遗憾的是这些许多的操作型事务处理 系统并不能很好的满足税务决策支持的应用。 税务管理信息系统对税务决策分析支持的乏力主要是由税务管理信息系统 自身的特点所决定。不同时间上线、不同开发商开发、不同业务部门使用的各 种税务管理信息系统使税务部门处于税收数据爆炸和知识匾乏的两种状态之 下。就北京地税而言,目前某局使用全市统一开发的信息系统有:综合征管系 统、发票系统、个人所得税明细申报系统、外网等四个系统,四个系统的数据 全市集中存储在一个统一的数据库中,简称“四网一库”,加上挂接的办公系 统( 含考勤系统) ,共有五个系统。四个业务系统都是按税收法律规定的程序和 要求设计的,能满足各项征管工作的事务处理,但满足不了数据处理多样化的 要求。具体体现在:1 1 】 1 、用户的行为模式 在税收日常事务处理环境中,用户的行为特点是数据的存取操作频率高, 但每次操作的时间短。而在分析处理环境中,用户的行为模式与此完全不同, 某个决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 应用程序可能要连续运行 几个小时,将具有如此不同处理性能的两种应用方式放在同一环境中,显然是 不适合的。 2 、数据的集成问题 d s s 需要集成的数据。全面而正确的数据是有效分析和决策的首要前提,不 仅需要税务系统内部各部门的数据,还需要外部( 工商、统计、银行等) 的相关 数据。因此d s s 对数据集成的迫切需要是数据仓库技术出现的重要原因之一。 3 、数据动态集成问题 事务处理系统不具备动态集成的能力。 4 、历史数据问题 武汉理工大学硕士学位论文 事务处理一般只需要当前数据,在数据库中只储存短期数据,且不同数据 的保存期限也不一样。对决策分析而言,历史数据是相当重要的,许多分析方 法必须以大量的历史数据为依托,d s s 对数据在空间和时间的广度上都有了更高 的要求。 5 、数据的综合问题 事务处理积累了大量的细节数据,d s s 不对这些数据分析,原因有二,一是 细节数据数量太大,严重影响分析的效率;二是大多数细节数据不利于分析人 员将注意力集中到有价值的信息上,因此在分析前,需要将数据进行不同程度 的综合。 以上这些问题表明,在税务系统建立数据仓库已是当务之急,才能使执法 的准确性更高,减少执法中的盲目性和随意性。因此税收信息化建设要求捕获 和分析事务型的业务数据,要提高分析和决策的效率,分析型处理及其数据必 须与操作型处理及其数据相分离,数据仓库正是为了构建这一种新的分析处理 环境而出现的一种数据存储和组织技术,数据仓库技术紧跟i n t e r n e t 技术发展, 成为税务部门当前和今后一段时期信息化建设关键。 通过建设税务数据仓库系统,【1 j 可以及时为管理者和决策者提供全方位、统 一和多层次的管理决策所需要的支持信息和相关知识。例如:明年的税源状况如 何? 由哪些因素决定? 各县市区税收收入的结构差异如何? 本地纳税人的税务情 况是否合理? 税务在不同地域和不同行业的状况如何? 是否合理? 造成税务结构 差异的因素有哪些? 某一纳税人存在偷、逃、骗税情况的可能性有多大? 通过建设税务数据仓库系统,在一定程度上解决“数据爆炸、知识贫乏” 的问题。利用数据仓库的数据立方和标准的在线分析软件,税务人员可以多层 次、多角度、全方位地审视数据:通过数据分析,用户可以快速发现异常、趋势、 差异,来更好地指导税收管理活动:通过在数据仓库上建立数据挖掘系统,可以 从数据中挖掘出“如果那么”的规则、生成概念和总结性的描述、生成数 据分类、生成数据聚集、发现纳税人行为模式、用回归模型进行预测、将规则 连同税收法律法规纳入知识管理为税务人员提供在线咨询。 2 武汉理工大学硕士学位论文 1 2 国内外研究现状 1 2 1国外税务系统中应用概览 税务系统数据仓库和数据挖掘技术的应用,在国外只有少数发达国家。2 0 0 0 年,美国开始采用顾客账户方式,纳税人通过国税局电子报税系统支付的税款 可以直接从其银行账户中扣除。近期,美国又在新的征管软件中启用了“数据 挖掘”信息技术,较好地保障了信息的真实性,减少了偷漏税现象。数据仓库 技术在政府税收部门的应用带来的效益是可观的。美国德克萨斯州政府税务部 门采用数据仓库和数据挖掘技术半年,每月己可带来6 0 0 万美元的收益,预计 每年的收益将超过8 0 0 0 万美元1 2 1 。 澳大利亚已在全国税务机关内部全面运用计算机系统管理纳税申报,有效 地对利用数据仓库和数据挖掘技术税源进行控制,有针对性地开展税务审计和 税收预测。澳大利亚政府税务部门将数据仓库和数据挖掘技术用于支持税收业 务。系统经过3 年的运行,投入回报率达到1 :1 5 2 。 1 2 2 国内现状 目前,在我国税务部门信息化的过程中,联机事务处理( o l t p ) 经过较长时 间的发展已达到一个基本成熟的境界,而联机事务分析处理( o l a p ) 和决策支持 系统( d s s ) 则方兴未艾。 南京市地税局数据仓库系统采用s y b a s e 系列产品作为开发、设计工具构建 的系统,提供了包括主机、网络、应用系统的全面解决方案。系统的数据分布 采用集中方式,功能分布采用决策、管理、操作三层分布结构。南京地税数据 仓库系统的实现是通过s y b a s er e p l i c a t i o ns e r v e r 完成源数据到数据集中枢 的数据增量复制;用s y b a s ea d a p t i v es e r v e r e n t e r p r i s e 管理通过s y b a s e r e p l i c a t i o ns e r v e r 复制过来的数据;通过p o w e r m a r t 将数据从数据集中枢经 过处理以后加载到数据仓库存储环境中,由e t l 服务器和开发环境组成,完成 数据的抽取、清洗、转换及加载,再使用s y b a s ea d a p t i v es e r v e ri om u l t i p l e x 实现数据仓库中数据的存储和管理。使用b u s i n e s s o b j e c t s 的产品,实现数据 的展现和分析等1 1 i 。 山东浪潮齐鲁软件产业股份有限公司联合中国人民大学金融与财税电子化 3 武汉理工大学硕士学位论文 研究所共同推出了“浪潮税务决策支持系统”。“浪潮税务决策支持系统”以 数据仓库、数据挖掘、统计分析等技术为基础,在系统设计时,将技术框架和 业务模型有效隔离,通过采用面向对象、中间件等技术,构建了一个通用的决 策支持集成框架;然后,在分析税收业务的共性和特殊性的基础上,构建面向 国地两税、适用不同级别税务机关( 国家税务总局、省级局、市地局) 的业务模 型。 淄博市地税局实现了数据仓库和o l a p 技术在税务征收管理中的有效应用。 目的在于强化征管,指导、规范和优化税务征管工作。实现了一定意义上的数 据分析,可以帮助税务人员找到征收重点,更快的完成计划的匹配,更高效的 完成征收任务。 h p 为税务系统提供包括一整套的从硬件到软件的解决方案。康柏能够提供 高端服务器和海量存储设备,提供税务数据仓库系统建设方案咨询服务以及数 据仓库设计咨询服务。但是真正在国内得到应用的是康柏的集中征管方案。 i b m 税务商业智能解决方案整合了众多的产品和技术。该方案围绕数据仓 库,采用数据筛选工具和管理应用程序,为税务机关有效执行税收征管,改善 客户服务提供信息获取手段。在数据集中层面,i b m 拥有全系列服务器、存储设 备、数据库、中间件等数据中心解决方案;在数据分析和挖掘层面,i b m 可以提 供商业智能( b i ) 等相应工具:在数据交换平台,i b m 采用基于m qs e r i e s 的数据 交换方案。该解决方案采用d b 2 作为数据仓库平台,并运用d b 2 的d a t a w a r e h o u s e m a n a g e r 工具管理数据仓库中的信息。决策分析采用d b 2o l a p s e r v e r i n t e l l i g e n tm i n e re p m s 等工具,报表分析及展示通过采用b u s i n e s s o b j e c t s , c o g n o s ,b r i o 等产品。 1 3 研究内容和目标 本论文的研究基于一个实际的课题:由北京荣泽有限公司主持开发的北京 市丰台地税局综合信息管理服务平台,吸收该公司在税务业务系统开发方面多 年的经验和技术积累,深刻理解税务信息交换处理系统网络架构、业务流程, 参与北京市丰台地税局综合信息管理服务平台的开发,写作本论文。本文将不 特别针对某项具体业务进行论述,本文仅从宏观上来分析在税务系统中建立数 据仓库所经历的步骤及使用的一些技术和采用的结构。本论文内容包括: 4 武汉理工大学硕士学位论文 1 、第二章阐述了数据仓库技术的基本概念、数据仓库的组织结构和体系结构、 数据仓库的构建步骤以及数据仓库的应用和维护。 2 、第三章中利用数据仓库技术按照建立数据仓库的步骤设计和建立了税务系 统的数据仓库。 3 、第四章在已建立的数据仓库上实现o l a p 以及数据挖掘。 4 、第五章阐述了该系统存在的一些问题,指出了下一步的工作。 本论文的研究目标:把数据仓库的技术与当前的税收工作相结合,将先进 的信息技术用于实际工作中,为税收的信息化建设探索新思路、新方法,通过 建立税务数据仓库,把税务人员从大量的数据操作中解救出来,进而在此基础 上进行数据挖掘,对税收工作进行预测预报,为各级税务干部和领导提供执法 的信息和决策的依据。本系统具有较高的先进性和实用性,可有效指导税收工 作,有效利用资源,加强和完善管理机制,充分发挥税收这一经济杠杆的调节 作用。 武汉理工大学硕士学位论文 第2 章数据仓库技术 数据仓库技术包括三个部分:数据仓库d w 、联机分析处理o l a p 及数据挖掘 伽,d w 用于数据的存储与组织,o l p 集中于数据的分析,删则致力于知识的发 现。d w 与o l a p ,d m 三者的自然结合,提供完整的企业d s s 解决方案。 从数据库到数据仓库的演变过程,是一个自然的过程。数据库系统常常会 产生“蜘蛛网”问题以及随之而来的种种问题,要解决这些问题必须在体系结 构上加以变革。于是有人就提出了数据仓库的思想。所谓的蜘蛛网问题就是在 企业部门中在建立企业数据库同时,常常还要建立部门数据库,甚至个人数据 库,这样在数据分析时,不得不要从各个数据库中提取数据,数据的抽取很多 也很繁杂,这样就产生了蜘蛛网一样错综复杂的数据抽取和访阎。 错综复杂的数据抽取1 3 】和访问会产生很多问题,例如数据分析的结果缺乏可 靠性、+ 数据处理的效率低下、难于将数据转化为信息。数据分析的结果缺乏可 靠性主要是抽取数据时,从不同的数据库中抽取出来的数据会得到不同的结果, 因此数据抽取时必须要从全局出发;数据处理效率低下主要是指在错综复杂的 体系结构中,不同的数据库可能使用不同类型的数据库系统,对于有巨型数据 量的企业级数据库可能使用i b md b 2 ,对于中小型数据库可能使用s o ls e r v e r , 各种数据库的开发工具和开发环境不同,因而难以集成;难以将数据转换为信 息主要是指数据分析的结果缺乏可靠性必然导致难以将数据转换为信息。数据 仓库技术能解决上述问题,下面将介绍数据仓库技术。 2 1 数据仓库技术 数据仓库是伴随着决策支持系统d s s ( d e c i s i o ns u p p o r ts y s t e m ) 的发展而 产生的,是计算机信息技术不断发展的产物,是人们对信息需求从简单到复杂, 从基本的事务处理和业务管理到信息分析和战略决策的体现。 在2 0 世纪6 0 年代初,计算机系统的功能从数值计算扩展到数据管理。创 建运行于主文件上的单个应用是计算领域的主要工作,其特点表现为报表和程 序,数据管理形式主要是文件系统,少量的以数据片段之间增加一些关联和语 义而构成层次型或网状数据库,但数据的访问必须依赖于特定的程序,数据的 6 武汉理工大学硕士学位论文 存取方式是固定的、死板的 1 9 6 9 年,e f c o d d l 2 l 博士发表了他著名的关系数据模型的论文,关系数据 库的出现开创了数据管理的一个新时代。随着大量新技术、新思路涌现出来并 被用于关系数据库系统的开发和实现,到2 0 世纪7 0 年代中期,关系数据库最 终成为联机事务处理系统o l t p s ( o nl i n et r a n s a c t i o np r o c e s ss y s t e m ) 的主 宰。到了8 0 年代,随着一些新的计算机信息技术的不断涌现( 如个人计算机p c 和第四代编程语言4 g l ) ,逐步诞生了一种新思想,即除了高性能联机事务处理 之外,对数据可以做更多的处理,可以用于业务管理,于是出现了管理信息系 统m i s ( m a n a g e m e n ti n f o r m a t i o ns y s t e m ) 。管理信息系统与联机事务处理系统 的主要区别是:它不仅能进行数据处理,而且能将数据处理与优化的经济管理 模型等结合起来,向各级领导提供操作型决策信息。 m i s 如今称为d s s 3 i ,是用来产生管理决策的过程,是针对制定决策过程中 管理方面的需求而进行的处理,是浏览大量数据以找出其中的趋势( 这种基于业 务数据的决策分析,我们把它称之为联机分析处理o l a p ( o n l i n ea n a l y t i c a l p r o c e s s i n g ) 。在如今这样激烈的市场竞争环境下,单靠拥有联机事务处理系统 已经不足以获得市场竞争的优势,企业需要对其自身业务的运作以及整个市场 相关行业的态势进行分析,d s s 比以往任何时候都显得更为重要。如果说传统联 机事务处理强调的是更新数据库,一旦向数据库中添加信息,那么d s s 处理就 是从数据库中获取信息、利用信息。将大量的业务数据应用于d s s 处理原本是 个非常简单和自然的想法。但在实际的操作中,人们却发现要获得有用的信息 并非如想象的那么容易。由于历史的原因,人们建立的o l t p 系统往往分布在不 同的部门,且各种o l t p 系统的用户界面、开发工具、数据库、操作系统等都各 不相同,这就使得从o l t p 系统中获取数据用于d s s 变得非常困难。如图2 - 1 所 示。 7 武汉理工大学硕士学位论文 图2 - 1 传统操作环境下信息访问过程 撮绺型系统 数据抽取 绱惠型系绕 分织型鬃绕 为了从o l t p 系统获取数据用于d s s ,必须编制大量的抽取程序,当o l t p 系 统快速发展、数据量迅速地增长而且d s s 需求不断复杂时,抽取程序处于失控 状态( 这种失控的抽取过程产生的结构称为“自然演化体系结构”) ,产生如下 问题: 1 、质量问题:由于用户往往从自己的需要出发选择要访问的数据,但是用 户往往不能从全局出发考虑问题,由于数据算法上的差异、抽取程序的多层次、 外部数据问题、数据无时基等问题,导致数据缺乏可信性。 2 、效率问题:用户的决策需求是未知的,不同决策需求所涉及的业务数据 是不同的。对一个决策需求( 如管理者期望用数年来积累的数据集合和众多文件 生成一张企业报表) ,必须要分析很多文件和数据布局来定位所需求数据,必须 定制很多的抽取程序来从众多的数据源中取得数据,这需要花费企业大量的资 源且效率很低。 3 、集成性问题:业务数据往往被存放于分散的异构环境中,不易统一查询 访问,而且还有大量的历史数据处于脱机状态,形同虚设。因此用户很难保证 对数据作集成的访问。 另外,d s s 处理环境与o l t p 处理环境也是完全不同的,例如: o l t p 数据必须经常实时更新;而d s s 处理中需要不断地访问记录以及收集 8 武汉理工大学硕士学位论文 记录内容进行分析,但各个记录的内容极少更改或根本不更改。 o l t p 系统的用户需要快捷的反应;而d s s 处理中,响应时问的需求要宽松 得多,分析的响应时间可以从3 0 分钟到2 4 小时。 o l t p 系统的使用模式相对来讲是可预测的;在d s s 中,使用模式不是一成 不变的。 o l t p 4 1 5 1 环境的计算机网络规模比d s s 环境的网络规模大得多,用户也要多 得多。o l t p 环境的技术与d s s 环境的技术也大不相同。 从理论上讲,单一的数据库很难服务于所有的目的,无法既能用作操作型 的高性能事务处理,同时又用作联机分析处理( ( d s s 分析处理) 。 针对以上问题,人们设想将操作型处理及数据与分析型处理及数据分离开 来,将专门为业务的分析型处理建立一个数据中心,它的数据从联机的事务处 理系统中来、从异构的外部数据源来、从脱机的历史业务数据中来,这个数据 中心是一个联机的系统,它是专门为分析统计和决策支持应用服务的,通过它 可以满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓 库。其信息访问过程如图2 - 2 所示。 撩蚱型系统数据仓黪 信息分斩菘缆 图2 - 2 数据仓库环境下的信息访问 2 1 1 数据仓库概念 “数据仓库”( d a t aw a r e h o u s e ) ,就其概念的提出和发展历史而言,只有 9 武汉理工大学硕士学位论文 2 0 年左右的时问。在上世纪8 0 年代的中期,有“数据仓库之父”美称的 w i l l i a m h i n m o n 先生在建立数据仓库一书中定义了数据仓库的概念。但当 时业界对其内涵仍有不同理解,经过近十年的理论研究和实践探索,逐渐形成 了共识。下面是w i l l i a i h i n m o n 对数据仓库的一个较为精确的定义【6 jl 7 】: 数据仓库是在企业管理和决策中,面向主题的、集成的、与时间相关的、 不可修改的数据集合。数据仓库与其他数据库应用不同的是,数据仓库更像一 种过程,是一个系统工程。它是对分布在一个系统内部各处的业务数据以及与 之相关的外部信息的整合、加工和分析的过程。它不是一种可以购买的产品, 而应该是一个包括工具、方法、人员配置的,完整的解决方案。 由数据仓库概念引申出的一个概念是数据集市( d a t am a r t ) 嘲,或者叫做 “小数据仓库”。数据集市具有数据仓库的全部特征。如果说数据仓库是建立在 企业级的数据模型之上的话,那么数据集市就是企业级数据仓库的一个子集, 它主要面向部门级业务,一般只面向某个特定的主题。数据集市的出现和应用, 可以在一定程度上缓解访问数据仓库的瓶颈。 2 1 2 数据仓库的主要特点 除了具有传统操作性环境下的数据共享性、完整性和独立性外,数据仓库 还具有以下几个基本特征:【5 】【1 0 】 1 、面向主题( s u b j e c t o r i e n t e d ) 这是数据仓库最重要的特征之一。传统的数据是面向应用的,数据与应用 紧密相连,而数据仓库中的数据是面向主题的。所谓“主题”,是一个抽象的 概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的 抽象。在逻辑意义上,主题是对应企业中某个宏观分析领域所涉及的分析对象, 是针对某个决策问题而设置的。面向主题的数据组织方式,就是在较高层次上 对分析对象的数据的一个完整的、统一的、一致的描述,能完整、统一的刻画 各个分析对象所涉及的企业的各项数据,以及数据之间的关系。 目前,数据仓库的实现主要是基于关系数据库,每个主题由一组关系表或 逻辑视图实现。这些表和视图的内容与各个事务性系统数据源的数据本质上是 一致的,但为了方便支持分析数据处理,对数据结构进行的重组,其中还可能 增加一些数据冗余。 2 、集成性( i n t e g r a t e d ) l o 武汉理工大学硕士学位论文 数据仓库中存储的数据是从各个独立的业务处理系统或管理系统中提取出 来的,但并不是原有数据的简单拷贝,而是经过了统一和综合的处理【1 1 】。 其一,数据仓库的数据不能直接从原有数据库系统中得到。原有数据库系 统记录的是每一项业务处理的细节性数据,这些数据不适合分析处理,在进入 数据仓库之前必须经过综合、计算,抛弃分析处理不需要的数据项,增加一些 可能涉及的外部数据。其二,数据仓库每一个主题所对应的源数据在原分散数 据库中有许多重复或不一致的地方,必须将这些数据转换成全局统一的定义, 消除重复或不一致的地方,以保证数据的质量。 对源数据的集成是数据仓库建设中最关键也是最复杂的一步。 3 、稳定性( n o n v o l a t i l e ) 从数据的使用方式上看,数据仓库的数据是相对稳定的,这是指当数据被 存放到数据仓库中以后,最终用户只能通过分析工具进行查询、分析,而不能 修改其中存储的数据,也就是说,数据仓库的数据对最终用户而言是只读的。 从数据的内容上看,数据仓库存储的是企业当前的和历史的数据,在一定 的时间间隔以后,当前的数据需要按一定的方法转换成历史数据,年代久远的、 查询陆地的数据需要从数据仓库脱离到廉价慢速设备( 如磁带) 上,对分析处理 不再有用的数据需要从数据仓库中删除。但这些工作是由系统管理员来做,或 由系统自动完成。所以,数据仓库的数据在一定的时间间隔内是稳定的。 4 、时变性( t i m e - v a r i a n t ) 数据仓库数据的稳定性是针对应用而言的,即用户进行分析处理时不对数 据进行更新操作,但这并不是说,数据从进入数据仓库以后就永远不变。数据 仓库中的数据随时间变化而定期的被更新,每隔一段固定的时间间隔后,事务 性数据库系统中产生的数据被抽取、转换后集成到数据仓库中,而数据的过去 版本仍被保留在数据仓库中,如同“定期摄影术”,每隔一周、一月或适当的 间隔就照一张像;随着时间的变化,数据以更高的综合层次被不断的综合,以 适应趋势分析的要求;当数据超过数据仓库的存储期限,或对分析不再有用时, 这些数据将从数据仓库中删去。也就是说,数据仓库中的数据内容是企业在以 前各时间点上的瞬间映像,是以时间为变量的动态过程,这样才能发现、挖掘 出事物发展变化的内在规律。 数据仓库和数据库的差别很大,但是,数据仓库的建立并不是对数据库的 取代,他们处于不同的应用层次,数据库主要应用于日常操作处理,数据仓库 1 1 武汉理工大学硕士学位论文 主要应用于高层决策分析。数据库为数据仓库提供数据,是数据仓库的基础。 2 2 数据仓库的数据组织与体系结构 2 2 1 数据组织 数据仓库中的数据存在着不同的细节级:早期细节级( 通常是备用的、批量 的存储) 、当前细节级、轻度综合数据级以及高度综合数据级。它们的关系如图 2 3 所示【列1 1 2 1 。 菇度缘台缓 _ 轻壤缘 l j 兹瓣绸 警期绸 图2 - 3 数据组织结构 源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的 综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。 从中可以看出,数据仓库中存在着不同的综合级别,一般称之为“粒度”。 在数据仓库的数据组织结构中有三个重要的概念:粒度、元数据、分割。 1 、数据粒度( g r a n u l a r i t yo fd a t a ) 粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小, 级别就越低;反之,数据综合度越高,粒度越大,级别就越高。粒度的划分将 直接影响到数据仓库中的数据量和所适合的查询类型,对数据仓库中其它的设 计工作有很大的影响。不同的粒度级别的数据用于不同类型的分析处理。 2 、元数据( m e t a d a t a ) 武汉理工大学硕士学位论文 元数据是“关于数据的数据”,如传统数据库中的数据字典就是一种元数 据。数据仓库中的元数据是数据仓库结构的一个重要组成部分,利用元数据能 有效的管理数据仓库。在数据仓库环境中,主要有两种元数据:第一种是为了从 操作型环境向数据仓库环境转换而建立的元数据,它包含了所有源数据项名、 属性及其在数据仓库中的转换;第二种元数据在数据仓库中是用来与终端用户 的多维商业模型前端工具之间建立映射,这种元数据称为d s s 元数据,常用来 开发更先进的决策支持工具1 1 3 1 。 3 、数据的分割( p a r t i t i o n i n go fd a t a ) 数据的分割是指把逻辑上统一的数据分散到各自的物理单元中去,以便能 够分别独立处理,提高数据处理效率。数据分割之后,小单元内的数据相对独 立,处理起来更快,更容易。数据分割使数据更易于重构、索引、重组、恢复、 监控和顺序扫描。数据分割分为两种:系统级和应用级。系统级的分割是由数据 库管理系统和操作系统实现的;应用级的分割是由开发人员通过代码来直接控 制。因此,应用级的分割更为灵活。 2 2 2 数据仓库体系结构 数据仓库技术从本质上讲,是一种信息集成技术。数据仓库从多个信息源 中获取原始数据,经过加工整理后,存储在数据仓库的内部数据库中,通过向 终端用户提供信息访问工具,向数据仓库的用户提供统一、协调和集成的信息 环境,支持企业全局的决策过程和对企业经营管理的深入综合分析 4 6 1 1 1 7 1 。 为了达到这样的目标,数据仓库一般来说包含以下5 个主要组成部分: 1 、数据源:为数据仓库提供源数据,包括o l t p 的数据库、数据文件等内 部数据源和其他外部数据源。 2 、数据抽取、转换和加载工具e t l ( e x t r a c t i o nt r a n s f o r m a t i o nl o a d i n g ) : 从数据源中抽取数据,对数据进行校验和整理,并根据数据仓库的设计要求, 对数据进行重新组织和加工,加载到数据仓库中。 3 、数据仓库:这是整个数据仓库环境的核心,是数据存放的地方和提供 对数据检索的支持。存储经抽取、转换、加载后的数据,既有明细数据也有汇 总数据。相对于事务型数据库来说其突出的特点是对海量数据的支持和快速的 检索技术。 4 、o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织, 武汉理工大学硕士学位论文 以便进行多角度、多层次的分析,并发现其变化的趋势。 5 、前端数据访问

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论