(计算机应用技术专业论文)异构数据源关联挖掘及在决策分析系统中的应用(1).pdf_第1页
(计算机应用技术专业论文)异构数据源关联挖掘及在决策分析系统中的应用(1).pdf_第2页
(计算机应用技术专业论文)异构数据源关联挖掘及在决策分析系统中的应用(1).pdf_第3页
(计算机应用技术专业论文)异构数据源关联挖掘及在决策分析系统中的应用(1).pdf_第4页
(计算机应用技术专业论文)异构数据源关联挖掘及在决策分析系统中的应用(1).pdf_第5页
已阅读5页,还剩84页未读 继续免费阅读

(计算机应用技术专业论文)异构数据源关联挖掘及在决策分析系统中的应用(1).pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江苏大学硕士研究生毕业论文 摘要 企业信息化建设过程中,由于事务处理应用的分散,“蜘蛛网”问题以及 w e b 技术急剧发展所带来的大量半非结构数据,导致企业在发展过程中积累了 大量以不同方式存储的业务数据,并且这些数据所基于的数据库管理系统也大不 相同:从简单的文件数据库到复杂的网络数据库,它们共同构成了企业的异构数 据源。综合利用这些信息能帮助企业更好地预测和把握未来。但是这种异构的、 分散的数据却不利于发现有价值的信息。因此,研究异构数据源中的决策分析已 经成为必然。 本文在综述异构数据源中数据分析系统的发展及目前研究现状的基础上,提 出了先将异构数据进行集成,在集成基础上运用关联挖掘技术进行数据分析的方 法,以实现一个异构数据源下的关联挖掘系统。 论文首先给出了系统的整体框架设计,以及主要的功能模块描述:接着介绍 了系统中数据集成平台的实现;然后阐述系统的数据分析部分,其中主要研究与 实现了o l a p 中的关联挖掘算法,同时设计并实现了在x m l 数据上进行的关联 挖掘算法;最后,在江苏长江电气集团的电子商务网站系统上,利用我们设计的 算法实现了一个实用的决策分析系统。 论文的创新之处在于: 1 采用两步集成方案解决异构系统的数据整合问题。以x m l 数据格式完 成主要的数据交互,实现数据的底层集成,将收集到的数据进行分流处理:对于 以数据为中心的x m l 文档运用数据仓库技术进行高层集成,建立多维数据集,用 于分析和挖掘;对于以文档为中,i i , 的x m l 数据则直接以x m l 格式保存,用于 挖掘。采用两步集成方法不仅符合组件化的设计思想,同时,专门设立的x m l 数据交换平台可以充当“监视器 的作用,变“被动 分析为“主动 分析。 2 对适用于事务数据库的关联挖掘算法进行修改,实现了o l a p 中的关联挖 掘。利用数据仓库的维度建模和o l a p 的多维分析,达到了一种多角度、多层 次的“勘探式的关联分析,同时实现了基于一定事实约束的关联规则挖掘算 法。 3 通过详细分析x m l 的半结构化特点,我们采用半结构模型来表示x m l 江苏人学硕十研究生毕业论文 数据,开发并实现了一个基于半结构模型的挖掘算法,利用此算法来弥补x m l 数据向关系表转换所带来的缺陷。 关键字:异构数据源,数据挖掘,基于x m l 的数据交换,o l a p 中的关联挖掘, x m l 关联挖掘 江苏大学硕士研究生毕业论文 a b s t r a c t u n d e rt h ep r o c e s so fi n f oc o n s t r u c t i o n o nt h em a s so p e r m i o nd a t aa c c u m u l a t e d f o rs o m ec o r p o r a t i o n s ,t w oa s p e c t sr e f l e c t i nd i f f e r e n ts t o r a g ew a y s :t h eo n ei st h e s e p a r a t ea p p l i c a t i o no ft r a n s a c t i o n s ,t h eo t h e rt h ep r o b l e mo f “c o b w e b a n dt h em a s s s e m i n o n - s t r u c t u r e dd a t ab r o u g h tb yr a p i dd e v e l o p m e n to fw e bt e c h n o l o g y m o r e o v e r , t h em a s sd a t ab a s eo nt h ed i f f e r e n td b m s ( d a t a b a s em a n a g e m e n ts y s t e m ) : f r o mt h es i m p l ef i l es y s t e mt ot h ec o m p l i c a t e dn e ts y s t e m - - a l lt h a tm a k eu po ft h e h e t e r o g e n e o u sd a t as o u r c e i ft h e s ec o r p o r a t i o n sa v a i lt h e m s e l v e so fa l lt h ei n f o s y n t h e t i c a l l y , t h e y w i l lf o r e c a s ta n d g r a s p t h e i rt o m o r r o wb e r e r b u tt h e h e t e r o g e n e o u sa n ds e p a r a t ed a t ai sad i s a d v a n t a g ef o rf i n d i n gv a l u a b l ei n f o s ot h e 咖d y o fd e c i s i o n m a k i n ga n a l y s i si nt h eh e t e r o g e n e o u sd a t as o u r c eb e c o m e s n e c e s s a r y o nt h eb a s i so fs u m m a r i z i n gt h ed e v e l o p m e n ta n ds t u d ys t a t u si nq u oo ft h ed a t a a n a l y z i n gs y s t e mi nt h eh e t e r o g e n e o u sd a t as o u r c e ,t h i sp a p e rp r e s e n taw a yt o a c t u a l i z eaa s s o c i a t i o nd a t am i n i n gs y s t e mu n d e rt h eh e t e r o g e n e o u sd a t as o u r c e t h a t i si n t e g r a t i n gt h eh e t e r o g e n e o u sd a t af i r s t ,t h e no nt h eb a s i so fi n t e g r a t i o n ,p r o c e e d i n g w i t hd a t aa n a l y s i sb ym e a n so fa s s o c i a t i o nd a t am i n i n g f i r s t l y , t h i sp a p e rg i v e saw h o l ef r a m e w o r ko fs y s t e md e s i g na n dt h ed e s c r i p t i o n o ft h em a i nf u n c t i o nm o d u l e s e c o n d l yi n t r o d u c e st h e a c t u a l i z a t i o no fd a t ai n t e g r a t i n g p l a t f o r mi nt h es y s t e m a n dt h e ns e t s f o r t ht h ed a t aa n a l y s i sp a r to ft h es y s t e m , h e r e i n t ot h i sp a p e rm a i n l ys t u d i e sa n da c t u a l i z e st h ea s s o c i a t i o nd a t am i n i n g a l g o r i t h mi no l a p , a sw e l la st h ea s s o c i a t i o nd a t am i n i n ga l g o r i t h mb a s e do nx m l d a t a f i n a l l y , o nt h eb a s i so ft h ee - b u s i n e s sw e bs y s t e mo fj i a n g s uc h a n g ji a n g e l e c t r o n i cc o r p ,w em a k eu s eo fo u ra l g o r i t h mt oa c t u a l i z eav a l u a b l e d e c i s i o n - m a k i n ga n a l y z i n gs y s t e m i n n o v a t i o n so ft h i sp a p e r : 1 w ea d o p tat w o s t e p p e dm e a s u r et os o l v et h ep r o b l e mo fd a t ai n t e g r a t i o ni nt h e h e t e r o g e n e o u ss y s t e m w eu s ex m l d a t af o r mt oa c c o m p l i s ht h em a i nd a t ae x c h a n g e , s oa st oa c t u a l i z et h eb o s o mi n t e g r a t i o no ft h ed a t aa n dd i s t r i b u t et h ed a t ac o l l e c t e d f o rt h ed a t a c e n t r i cx m ld o c u m e n t sw ea d o p td a t aw a r e h o u s et e c h n o l o g yt op r o c e e d w i t hf u r t h e rd a t ai n t e g r a t i o n ,s e tu pt h em u l t i d i m e n s i o n a ld a t as e t sa n du s et h e mt o a n a l y z ea n dm i n e f o rt h ed o c u m e n t c e n t r i cx m ld o c u m e n t sw es t o r et h e md i r e c t l y a sx m lf o r mt om i n e t h et w o s t e p p e di n t e g r a t i o nm e a s u r en o to n l ya c c o r dw i t ht h e i d e a lo fc o m p o n e n td e s i g n ,a tt h es a m et i m et h ex m ld a t ae x c h a n g ep l a t f o r mw h i c h i ss e tu ps p e c i a l l yc o u l dp l a yt h er o l eo f m o n i t o r ,s ot h a tt h e p a s s i v ea n a l y s i s b e c o m e s “i n i t i a t i v ea n a l y s i s 2 w ea m e n dt h ea s s o c i a t i o nd a t am i n i n ga l g o r i t h mw h i c ha d a p t st ot r a n s a c t i o nd a t a w a r e h o u s e a c t u a l i z et h ea s s o c i a t i o nd a t am i n i n gb a s e do n0 l a p w et a k et h e a d v a n t a g eo ft h ed i m e n s i o n a lm o d e l i n go fd a t aw a r e h o u s ea n dm u l t i d i m e n s i o n a l a n a l y s i so f0 l a pt oa c h i e v eak i n do fm u l t i a n g l ea n dm u l t i 1 e v e l “e x p l o r a t o r y ” 江苏大学硕十研究生毕业论文 a s s o c i a t i o na n a l y s i s ,a n da l s oa c t u a l i z et h ea s s o c i a t i o nr u l e sm i n i n ga l g o r i t h mb a s e d o ns o m er e s t r i c t e df a c t s 3 t h r o u g ht h ed e t a i l e da n a l y s i so nt h es e m i s t r u c t u r e dc h a r a c t e ro fx m l ,w ea d o p t as e m i s t r u c t u r e dm o d e lt of i g u r ex m ld a t a ,d e v e l o pa n da c t u a l i z eam i n i n g a l g o r i t h mo nt h eb a s i so ft h es e m i s t r u c t u r e dm o d e l w et a k ea d v a n t a g eo ft h i s a l g o r i t h mt om a k eu pf o rt h ed e f e c tb r o u g h tb yt h es w i t c hb e t w e e nx m l d a t aa n d r e l a t i o nt a b l e k e yw o r d s :h e t e r o g e n e o u sd a t as o u r c e ,d a t am i n i n g ,d a t ae x c h a n g eb a s e d o nx m l ,d a t a m i n i n gi no l a p , x m l a s s o c i a t i o nm i n i n g 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 保密圈 ,在弓年解密后适用本授权书。 不保密口。 学位论文作者签名:7 目象柳 护中年午月易日 t 指导教师签名: 口怍忉易日 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容以外,本论文 不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的 研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本人 完全意识到本声明的法律结果由本人承担。 学位论文作者签名:i 乱盈娥 日期: d 争年年月易日 江苏大学硕士研究生毕业论文 1 1 异构系统的产生 第1 章概述 近年来,随着计算机应用,特别是数据库应用的广泛普及,人们对数据处理 的多层次特点有了更清晰的认识,不再满足于原有的操作型处理,在企业信息化 建设过程中纷纷引入数据的分析型处理,比如决策支持系统d s s ( d e c i s i o n s u p p o r ts y s t e m ) 。在分析型处理中,经常要访问大量的历史数据,因此,为了保 证有效的分析和决策,全面而正确的数据是首要前提。相关数据收集得越完整, 得到的结果就越可靠。但事实上,当前大部分企业内数据的真正状况却是分散的、 异构的。造成这样的原因主要为【1 2 】: 事务处理应用的分散 在计算机应用初期,从事具体工作的人员为了解决自身的问题,在各自领域 中开展了计算机应用,比如生产信息系统、销售系统、财务系统。在更大一些的 制造型企业中,多个分厂还都拥有各自的企业资源计划e r p ( e n t e r p r i s er e s o u r c e p l a n n i n g ) 、客户关系管理c r m ( c u s t o m e rr e l a t i o nm a n a g e m e n t ) 以及电子商务 e c ( e l e c t r o n i cc o m m e r c e ) 等系统。它们的存在对领域问题的解决、工作效率的提 高起到了重要作用,但这些企业内部的各个事务处理应用间实际上几乎都是独立 的。这主要是因为,在系统设计过程中,系统设计人员为了减少系统开发费用和 加快开发进度,总是采用简单而“有效的设计方案。此外,还有历史、地理等 方面的原因,比如,某个大公司由分散在各地的多个子公司组成,企业的兼并等 等。 “蜘蛛网”问题 在各种各样的数据应用中,为了避免与其他用户的冲突和简化用户的数据视 图,一种称作“抽取程序”的方法目前被广泛地应用。用户利用抽取程序从文件 或数据库中查找有用的数据,然后这些数据被提取出来,放入其它文件或数据库 供用户使用,这些经抽取的新文件或数据库又被某些用户再次抽取。这种不加控 制的连续抽取导致系统内的数据间形成了错综复杂的网状结构,人们形象地称为 “蜘蛛网”。尽管某些节点的数据归根结底是从一个原始库中抽取出来的,但数 江苏人学硕十研究生毕业论文 据没有统一的时间基准,抽取算法各不相同,抽取级别也不相同,并且可能参考 不同的外部数据,因此,面对同一问题的分析,也可能会产生截然相反的结果。 半非结构化数据和外部数据 w e b 技术的发展为众多企业推广自己的产品、介绍自己的服务提供了一个 更大更方便的窗口,供应商、客户都可以通过这个窗口与企业进行交流,同时企 业也拥有了最大的信息获取源,除了供应商信息、客户信息,企业通过网络还可 以获得各种各样其它的外部数据,例如,权威性刊物发布的统计数据、业界的技 术报告、市场比较和分析报告、股票行情等等。这些外部数据可能是类似于标记 语言的半结构数据,更有可能是非结构化数据。这种大量半非结构化的外部数 据的融入也是导致企业异构的一个主要原因。 综合上述几个原因,可以看到,在企业信息化建设过程中,由于各业务系统 建设和实施数据管理系统的阶段性、技术性以及其它经济和人为等因素的影响, 导致企业在发展过程中积累了大量以不同方式存储的业务数据,并且这些数据所 基于的数据库管理系统也大不相同:从简单的文件数据库到复杂的网络数据库, 它们共同构成了企业的异构数据源。这种异构数据源不利于通过计算机网络实现 系统问的信息交换,人们无法更有效的发现其中有价值的信息,更谈不上很好的 利用。 1 2 异构系统中的关联挖掘 本节提出异构系统中关联挖掘这一问题,介绍其中需要的关键技术,并给出 目前这方面的国内外研究现状。 1 2 1 问题提出 自2 0 世纪8 0 年代中期以来,基于i n t e r n e t 的全球信息系统以及w w w 出现, 并成为信息产业的生力军。同时,计算机硬件稳定的进步导致了功能强大的计算 机、数据收集设备和存储介质的大量供应。这些技术大大推动了数据库和信息产 业的发展,产生了大量的数据。数据的丰富带来了对强有力的数据分析工具的需 求。快速增长的海量数据收集、存放在大型数据库中,没有强有力的工具,理解 它们已经远远超出了人的能力。因而迫切需要一种能够智能地自动地把数据转换 2 江苏大学硕士研究生毕业论文 成有用信息的工具。数据库管理系统和人工智能中机器学习两种技术的发展和结 合,促成了知识发现技术的诞生,1 9 8 9 年8 月,在美国底特律召开的第1 1 届国 际人工智能会议的专题研讨会上,首次提出数据库中的知识发现k d d ( k n o w l e d g ed i s c o v e r yd a t a b a s e ) 。数据挖掘技术作为k d d 的关键步骤,于1 9 9 5 年也被( 美) 计算机学会( a c m ) 会议正式提出。简单来说,数据挖掘就是从 大量数据中提取或“挖掘 知识。w j f r a w l e y 3 】等给出了d m 的定义:d m 就是 从大型数据库中,提取人们感兴趣的知识,即正确的、非平凡的、未知的、有潜 在应用价值的并最终可为用户理解的模式( p a t t e r n ) 。 从数据挖掘的定义可以看出,它主要是在规则的数据库上进行,但在实际的 信息化建设过程中,企业往往呈现出一种分散、异构的系统状况。以本系统研究 的开发背景江苏长江电气集团为例,我们可以看到这种分散的、异构的企业信息 系统在信息交换、整合以及分析中主要存在以下几个弊端: 信息冗余、不一致。 在企业中,同一个信息可能同时存储在多个不同的系统中,比如,产品数据 存放在生产、销售、库存等系统中,这就产生了数据冗余。 数据不一致主要体现在以下几个方面: 1 ) 产品名称不一致。企业有多个分厂,许多产品属于流线型生产,经常出 现一个产品在不同的分厂采用不同的名称。有时连领导都难以指出这种名称之间 的对应性。 2 ) 数据单位不一致。各系统使用的度量衡单位不一致。比如对产品产量, 出现了包、箱等单位,对产品体积,出现了米、厘米、毫米等单位。 3 ) 数据类型不一致。同一数据可以用不同的类型表示,最典型的就是时间, 可能采用日期型、时间型、字符型,甚至数值型等很多种表示。 4 ) 数据本身不一致。在数据冗余的情况下,由于各个系统对数据增、删、 改操作的不同步,造成同一数据在不同部门的值不一致,尤其是在生产部门、仓 库和销售部门这种互相关联的系统中。 综合信息提取能力差。 目前,大多数系统都是被动式的使用,领导需要一些全面信息时,必须下达 指令,然后子系统才开始运行,最后将结果以报表的形式提交给领导。如领导想 江苏大学硕士研究生毕业论文 要历年的产量数据,必须先向生产信息系统下达指令,生产信息系统进行计算, 再将结果以报表的形式提交给企业领导。但是这种采用报表向领导提供信息的方 式在时间上容易滞后,可能是昨天、甚至数天以前的数据,这样很难及时地把握 企业的信息。 难以满足分析处理的需求。 原有系统都属于联机事务处理系统o l t p ( o nl i n e t r a n s a c t i o n p r o c e s s i o n g ) ,这种系统用于分析时,需要汇总大容量数据的分析查询,因此对 系统响应联机事务的能力会产生不良影响,对复杂分析查询做出响应时,系统性 能会变慢或不可预测,因而无法为进行联机分析的用户提供充分支持;并且经常 变化的数据会破坏分析信息的一致性。同时,原有分析人员不具备针对复杂数据 结构创建特殊查询所需的技术专业知识。这些问题都导致了原系统不能满足分析 需求。 因此,要想在这样的系统上进行数据挖掘,达到更有效地使用这些信息的目 的,我们必须解决原有系统存在的问题,首先对企业分散的、异构的信息进行集 成,在集成信息基础上,采用有效的信息提取工具,发现其中有价值的信息,为 企业发展发挥更大的作用。 1 2 2 国内外研究现状 研究并实现企业异构系统中的数据分析需要综合运用数据仓库、数据挖掘以 及o l a p 等多种技术。其中所需要的数据仓库、数据挖掘等技术已经出现了比较 成熟的产品,比如,数据仓库方面有i b md b 2w a r e h o u s em a n a g e r 、o r a c l e w a r e h o u s eb u i l d e r 以及m i c r o s o f t 的a n a l y s i ss e r v i c e s 等,数据挖掘方面比较典型 的有s a se n t e r p r i s em i n e r 、i b m 开发的i n t e l l i g e n tm i n e r 以及加拿大s i m o nf r a s e r 大学开发的d b m i n e r 等等。但在这些技术基础上发展起来的企业异构系统中的 整体商务智能解决方案则处于一种探索和发展的未成熟阶段。但是,越来越多的 企业已充分意识到,只有实施企业整体的商务智能才是企业能否生存、能否盈利 的关键,因而都纷纷着手开发商务智能,寻找和发掘自己的竞争优势。目前,在 企业商务智能市场中,国际上也出现了部分有影响的解决方案,主要表现形式为 商务智能决策支持系统,如: 4 江苏大学硕士研究生毕业论文 在美国纳斯达克和法国巴黎上市的b o 公司,它所提供的商务智能 软件工具可以用于帮助企业将分散的数据资源,进行整合,转化为 有用的信息,为企业提供分析、决策的依据,从而大大提高企业的 应变能力、竞争优势和客户服务水平。b o 是一种整合的解决方案, 其产品易用性强,尤其是在数据挖掘方面,更是表现出了其强大的 数据分析功能,它可用的数据源一般分为两种:数据仓库( 包括数 据库) 以及由e r p 、c r m 和s c m 等信息化管理工具所产生的企业 数据。 此外,由o r a c l e 公司开发的电子商务智能平台o r a c l e 9 i ,也是较 有影响的电子商务智能决策系统,与b o 公司推出的电子商务智能 软件工具不同,它不仅仅提供商业智能软件,而且还集成了自己的 数据仓库产品,它所提供的服务功能主要包括以下3 个领域【4 】: o l a p ,e t l ( e x t r a c t i o n ,t r a n s f o r m a t i o n ,l o a d i n g ) ,以及数据挖掘。 国内电子商务智能市场,也出现了一些独立软件开发商( i s v ) ,但都还处 于尚未成熟的阶段。 1 2 3 关键技术 在异构系统中进行数据分析首要的一步是实现异构数据源的整合与集成。因 此,其关键技术除了一般数据分析系统所需要的数据仓库、联机分析处理和数据 挖掘外,还有一项非常关键的技术是x m l 技术。 x m l 技术 x m l 5 “】是e x t e n s i b l em a r k u pl a n g u a g e 的缩写。它是世界万维网协会 ( w 3 c ) 制定的用于描述数据文档中数据的组织和安排的结构的语言,是专为 w e b 应用而设计的标准通用标记语言s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u p l a n g u a g e ) l 拘- - 个优化子集。正像它的英文名称中所指出的那样,它是一种标识 ( m a r k u p ) 语言。在这点上,它类似于h t m l ,但x m l 关注的不是数据在浏览器中 如何布局和显示,而是关注于怎样描述数据内容的组织和结构以便数据在网络 上进行交流和处理。并且同s g m l 类似,x m l 是一种元标记语言,使用者可按 需创建新的标记,x m l 的可扩展性就在于此。这些标记通过文档类型规范d t d 江苏火学硕士研究生毕业论文 ( d o c u m e n tt y p ed e f i n i t i o n ) 或者模式( s c h e m a ) 来加以定义。 严格来讲,x m l 定义为【7 】:可扩展标记语言x m l 是s g m l 的一个子集。 它是一种元语言,描述用来创建特定标记语言的概念和规则。 x m l 有以下几个关键特性: 1 ) 与s g m l 一样,可以将多个来源( 包括其他x m l 文档和二进制文件) 的文档汇合进一个x m l 文档。 2 ) 可以利用d t d 或模式管理一致性问题。 3 ) 可以根据d t d 或模式验证文档的合法性。 4 ) 灵活性。x m l 提供了一种结构化的数据表示方式,使得用户界面分离于 结构化数据。 5 ) 具有可扩展性。x m l 是设计标记语言的元语言,可以定义自己的元素和 属性类,可以按需要使用它们。 6 ) 自描述性。x m l 文档通常包含一个文档类型声明,不仅人能读懂x m l 文档,而且计算机也能处理。x m l 文档中的数据可以被任何能够对x m l 数据 进行解析的应用所提取、分析和处理,并以所需格式显示。x m l 表示数据的方 式真正做到了独立于应用系统,并且这些数据能重用。 数据仓库 9 0 年代初,w h i n m o n 提出了数据仓库的概念【8 】:数据仓库是支持管理决 策过程的、面向主题的、集成的、与时间有关、持久的数据集合。数据仓库也是 一种管理技术,它将分布在企业网络中不同站点的商业数据集成到一起,把支持 决策分析的数据事先收集、归纳、处理,使企业的业务操作环境和信息分析环境 分离,从而有效地为决策者提供各种类型的、有效的数据分析,起到决策支持的 作用。数据仓库概念提出的意义在于,使操作型环境与数据分析型环境分离开来, 建立一种数据存储体系结构,把分散的、不利于访问的数据转换成集中、统一、 随时可用的信息。 数据仓库有四个基本特征f l - 2 3 】: 1 ) 数据仓库是面向主题的。主题是在较高层次上将企业信息系统中的数据 综合、归类并进行分析利用的抽象。逻辑意义上,它是对应企业中某一宏观分析 领域所涉及的分析对象。面向主题的组织方式就是在较高层次上对分析对象的数 6 江苏大学硕十研究生毕业论文 据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所设计的企业的 各项数据,以及数据之间的联系。较高层次是相对面向应用的数据组织方式而言 的,是指按照主题进行数据组织的方式具有更高的数据抽象级别。 2 1 数据仓库的数据是集成的。数据仓库的数据是从分散的、异构的数据库 数据中经过抽取、转换、集成统一起来的。 3 ) 数据仓库的数据是不可更新的。数据仓库的数据主要供企业决策分析使 用,所涉及的数据操作主要是数据查询,一般情况下不进行数据修改操作。 4 ) 数据仓库数据是随时间不断变化的。数据仓库中的数据不可更新是针对 应用来说的,也就是说,数据仓库的用户进行分析处理时不进行数据更新操作, 但并不是说,在从数据集成到数据仓库开始到最终被删除的整个数据生存周期 中,所有的数据仓库数据都是永远不变的。数据仓库中的数据是随时间不断变化 的,随时间变化而不断增加新的数据内容,随时间变化而不断删去旧的数据内容, 随时间变化而生成大量的综合数据。因此,数据仓库数据的码键都包含时间项, 以标明数据的历史时期。 相对于数据库系统,数据仓库系统是为数据分析提供集成化的决策支持环境 的,而数据库系统是为数据的操作处理提供支持的,二者的服务目标不同从而导 致系统结构中各部分的地位和作用的不同,由于系统的不同,导致了两者的设计 也不同。具体来说,数据仓库和数据库设计有以下不同点: 1 ) 目的不同。数据库设计的目的是捕获高比率的数据更改和添加。数据仓 库的目的则是组织大量的稳定数据以便于分析和检索。 2 ) 建模不同。数据库设计采用实体关系建模。数据仓库则采用维度建模。 3 ) 数据验证要求不一样。在数据库设计中,为了保证频繁更新情况下数据 的一致性,数据验证要求很高。但在数据仓库中,因为数据仓库中的数据在发布 到数据仓库之前已被清理和验证过,并且数据一旦存放到数据仓库中,不会频繁 更改,因此验证要求比较低。 4 ) 事务重要性不同。数据库设计专用于大量数据的更新,事务锁定作用很 重要。相反,数据仓库专用于从稳定的数据中快速检索信息,数据更新主要包括 定期更新,事务在数据仓库中作用不大。 联机分析( o l a p ) 江苏人学硕七研究生毕业论文 o l a p 是o n l i n e a n a l y t i c a lp r o c e s s ( 联机分析处理) 的简称。l9 9 3 年e ec o d d 首次提出o l a p 的概念,它是针对特定问题的联机数据访问和分析,通过对信 息的很多种可能的观察形式,进行快速、稳定一致和交互性的存取,允许管理决 策人员对数据进行深入观察。 o l a p 有两个基本特点【9 j : 1 ) 在线性( o n l i n e ) :表现为对用户请求的快速响应和交互式操作。 2 ) 多维性( m u l t i a n a l y s i s ) :表现在用户可以对多维数据集中的数据运用 切片、切块、旋转等方式进行多维分析。 o l a p 的目标是满足决策支持或多维环境特定的查询和报表需求,其技术核 心是“维”这个概念,维是人们观察事物的特定角度。例如,企业常常关心产品 销售数据随着时间推移而产生变化的情况,这时他是从时间角度来观察产品的销 售,所以时间就是一个维。企业也时常关心自己的产品在不同地区的销售分布情 况,这时他是从地理分布的角度来观察产品的销售,所以地理分布也是一个维。 同时,人们观察数据的某个特定角度还可以存在细节程度不同的多个描述方面, 我们称这个描述方面为维的级别或者维的层次。例如,描述时间维时,可以从年、 季度、月甚至周、同等不同层次来描述,年、季度、月、周以及同就是时间维的 层次。 数据挖掘 9 0 年代中期提出的数据挖掘,是从知识发现的概念引伸出来的,它是k d d 的核心部分,是人工智能、机器学习与数据库技术相结合的产物。它主要是在一 些事实或观察数据的集合中寻找模式的决策支持过程。根据挖掘功能可以将数据 挖掘分为以下几类【1 0 l : 1 ) 概念类描述:特征化和区分。数据特征化是目标类数据的一般特征或特 性的汇总。数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般 特性比较。 2 ) 关联分析。关联分析发现关联规则,这些规则展现属性值频繁地在给定 数据集中一起出现的条件。 3 ) 分类和预测。分类首先通过分析由数据库属性描述的数据库元组来构造 一个可以描述预定的数据类集或概念集的模型,然后使用模型类去标记未知的对 江苏大学硕士研究生毕业论文 象类。预测是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属 性值或值区间。 4 ) 聚类。聚类是一种无指导学习,它将数据对象分组成为多个类或簇,在 同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。 1 3 本文研究内容及论文组织 在介绍本文研究内容之前,先介绍一下本系统的开发背景。最后给出本文的 组织情况。 1 3 1 开发背景 本文研究的异构系统中的关联挖掘是以江苏长江电气集团为开发背景的。长 江电气集团是一个拥有1 2 个分厂的中型制造企业,拥有自己的电子商务网站, 各个分厂大都有自己的e r p 系统,部分还有c r m 系统,此外,还有众多服务于 单个部门的事务处理系统。在这样的系统中进行关联挖掘,首先必须收集各个子 系统的数据,系统中我们采用x m l 作为统一的数据交换格式,即服务器和所有 的子系统之间都采用x m l 格式交换数据,然后对收集的数据运用数据仓库技术 进行集成,在集成基础上运用关联挖掘算法,挖掘出有价值的信息。 我们知道,目前关联挖掘算法主要还是用于事务数据库,而本系统的数据平 台是数据仓库和用于联机分析的多维数据集,更有可能是x m l 数据,因此将研 究重点放在挖掘算法上。基于这样一个研究重点,我们假定在服务器和子系统交 换数据时,子系统有能力将需要上传的数据转换成x m l 格式,对于接收到的服 务器端的数据也可以转化成适合自身的形式,即本文基于异构系统这样一个整体 背景进行讨论,但研究主要从服务器端展开。 1 3 2 本文研究内容 基于这样一个开发背景,本文的主要研究内容是,以x m l 方式收集各个异 构的、分布的子数据源中的数据,对收集到的x m l 数据进行分流处理,将数据 为中心的x m l 文档转换成关系表,保存到数据仓库,将不适合转换成关系表的 文档为中心的x m l 数据直接保存到x m l 数据库,然后分别进行基于数据仓库和 9 江苏大学硕十研究生毕业论文 x m l 数据的关联挖掘,通过挖掘生成辅助企业决策的规则。 本文预期要做的工作: 1 以x m l 方式收集各个异构的、分布的子数据源的上传数据,对收集到 的x m l 数据进行分流处理,将以数据为中心的x m l 文档转换成关系表, 保存到数据仓库,以文档为中心的x m l 数据原形式保存。 2 分析和研究适用于事务数据库的关联挖掘算法f p 增长算法,分别从单 维、多维以及混合维三方面对其进行改进,实现基于联机分析环境的关 联挖掘,同时对联机分析中基于一定约束条件的关联挖掘进行了简单的 研究。 3 基于x m l 数据的关联挖掘算法的分析和研究。分析x m l 的数据模型, 从传统数据模型、半结构模型以及扩展关系结构模型三方面对x m l 关 联挖掘进行了详细的介绍,最终采用基于半结构模型的挖掘算法解决本 系统中关于x m l 数据的关联挖掘。 4 利用已实现的算法,以长江电气集团电子商务网站为平台,展示可以进 行的一些数据分析。 1 3 3 论文组织 论文组织: 第一章简述异构系统产生的背景及发展历程。指出了异构系统在决策分析中 存在的问题,综述异构系统中数据分析的国内外发展现状,引入异构系统中关联 挖掘的概念及关键技术,明确本文的研究意义和内容。 第二章给出异构数据源中关联挖掘系统的整体框架设计,并对其中的主要功 能模块做简单的介绍。 第三章介绍系统数据集成平台的设计与实现,简述数据集成的主要方法。以 长江电气集团为开发平台,设计对各个异构子系统的数据进行收集、清洗、转换 以及集成的方法。 第四章针对系统中的实际应用问题,对现有的适用于事务数据库的关联挖掘 算法进行改进,实现了o l a p 中的单维、多维、混合维以及基于一定约束的关 联挖掘,给出改进算法的逻辑流程,最后总结改进算法,并讲述了o l a p 中进 l o 江苏大学硕士研究生毕业论文 行关联挖掘的优点。 第五章阐述了各种模型表示x m l 数据的利弊,根据模型分类介绍目前有代 表性的基于x m l 数据的关联挖掘算法。结合系统实际问题,采用合适的x m l 关联挖掘算法实现了系统中关于客户意见的关联挖掘。 第六章在总结系统开发过程中的相关问题的基础上,介绍系统的实际运行情 况并给出系统的运行效果图,最后总结本系统的特点,。 第七章进行论文的总结和进一步的展望。 江苏人学硕十研究生毕业论文 第2 章异构数据源中关联挖掘系统的设计 本文研究的主要内容是:收集各个异构子系统的数据,对收集到数据进行集 成,运用关联挖掘算法,实现异构数据源中的关联挖掘,达到辅助决策人员进行 分析决策的目的。本章首先给出整个系统的体系结构设计,对其中主要模块进行 简单介绍。 2 1 系统的体系结构设计 异构数据源中关联挖掘系统的体系结构如图2 1 所示: 辑 问题提交、 图2 1 异构数据源中关联挖掘系统的体系结构 江苏大学硕士研究生毕业论文 本系统创建专门的数据交换平台供服务器和异构的、分布的子数据源交换数 据。所有交换信息均采用x m l 格式,对收集到的x m l 数据分别处理,将结构 良好的以数据为中心的x m l 文档转换成关系表形式,在关系数据库基础上创建 数据仓库用于联机分析和数据挖掘,而对结构复杂的或者非结构的以文档为中心 的x m l 文档不进行转化,直接在其上进行数据挖掘。 在系统的体系结构中,根据数据流向,将系统分为数据收集、数据处理和规 则表示三部分。 1 数据收集 数据收集部分主要完成各子数据源信息的汇总。系统服务器和子数据源之间 采用x m l 格式交换信息,这种方式符合组件化的设计思想,便于系统的扩充, 子数据源的变化不影响服务器,服务器中数据处理的变化也不会牵涉到子数据 源。 2 数据处理 数据处理是系统的主要部分,它又可以分为数据预处理、联机分析以及数据 挖掘三个子模块。数据预处理将文档为中心的x m l 数据存入x m l 数据库,将 数据为中心的x m l 文档转化后存入关系数据库,对关系数据库中的数据进行一 系列清洗、转换后,保存到数据仓库。联机分析模块访问数据仓库中数据,供用 户进行多角度、多层次的查看。数据挖掘是一系列算法,它可以调用o l a p 和 x m l 数据库中的数据分别进行基于o l a p 的数据挖掘以及基于x m l 的挖掘。 3 规则表示 规则表示也就是决策支持模块,主要是人机界面部分,决策者提出问题,系 统根据问题或者从规则库中直接提取,或者调用相应模块,返回给决策者满意的 答复。 2 2 主要模块介绍 本系统最主要的突出点是数据交换平台和数据挖掘,我们着重实现的也是这 两大模块,下面对这两大模块进行简要的介绍。 数据交换平台 数据交换平台是服务器和子数据源进行数据交互的主要场所,双方都需要将 江苏大学硕士研究生毕业论文 发送的数据转换成x m l 格式进行发送,而对于接收到的x m l 数据也能够转换 成自己所需的格式。服务器中设立专门的上传数据表和下发数据表。上传数据表 用于子系统向服务器发送当日增加的新信息,子系统每日定时完成上传工作,服 务器也定时处理接收到的信息,并把相应的处理结果返回给子数据源。下发数据 表主要用于服务器向子数据源发送信息。在我们系统中,数据交换平台起到一个 “监视器”的作用,每同定时捕获系统中的异常信息,下发数据表就是用于向子 数据源发送监视到的异常信息。 数据挖掘 数据挖掘中的关联挖掘方法是本系统中采用的主要数据分析方法。但是,本 系统采用的关联挖掘同以往的方法有所不同。传统的关联挖掘主要是基于事务数 据库进行的。在我们系统中,将收集到的x m l 数据进行分流处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论