已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 数据挖掘技术的产生和发展为人们从海量的数据信息中发现有用的知识提 供了一条有效的途径,数据挖掘系统则架起了数据挖掘技术与数据挖掘应用之间 的座桥梁,数据挖掘系统的研究和开发将有利于推动数据挖掘应用的进一步推 广。实践和经验表明,数据挖掘的标准化工作将有助于改进不同的数据挖掘系统 和功能间的互操作性,促进数据挖掘系统在企业和社会中的使用和推广。 数据挖掘的工业过程标准c r o s si n d u 嘶s t a l l d a r dp r o c e s sf o rd a t am i n i n g ( c r j s p d m ) 是一种为行业内所广泛接受的数据挖掘过程标准模型,本文通过对 数据挖掘的工业标准过程c s p d m 的研究,提出了一种遵循c r j s p d m 标准 的数据挖掘系统框架并对框架中各个层次的功能进行了定义。j a v ad a t am i n i n g ( j d m ) a p i 规范是由s u n 的j c p 组织推出的一种基于j a v a 平台的开发数据挖掘 软件的接口标准,通过遵循该标准开发的数据挖掘产品之间可以实现功能模块的 共享性和互操作性。通过对j a v ad a t am i n i n ga p i 标准的研究,对提出的数据挖 掘系统框架进行了进一步的细化,设计出了一种基于j d ma p i 标准的数据挖掘 系统体系结构,对体系结构中的功能模块的划分和各自的功能进行了详细的定 义,并对数据挖掘系统实现中的一些关键技术问题进行了分析归纳。 元数据在数据挖掘系统中具有非常重要的管理和配置作用,元数据管理是数 据挖掘系统设计和实现中的一个重要的组成部分。本文对数据挖掘系统体系结构 中元数据管理模块进行了进一步的详细分析与设计,分析了元数据管理中存在的 问题,通过定义一种中立的元数据操作和元数据内容描述格式,实现了元数据的 操作处理与元数据的物理存储机制和元数据展示的相互分离,提供了一种灵活的 和可扩展的元数据管理子系统体系结构。通过对现有的元数据物理存储机制的分 析,选用了关系型数据库作为元数据管理予系统原型的物理存储机制,对原型系 统中的实现技术进行了详细的分析与设计并初步实现了一个元数据管理子系统 的原型系统。通过原型系统的实现验证了元数据管理子系统体系结构和功能模块 设计的可行性,为进一步实现数据挖掘系统奠定了良好的基础。 关键词数据挖掘系统:元数据管理; c m s si n d u s 姆s t a n d a r dp r o c e s sf o rd a t a m i i l i n g ; j a v ad a t am i 工l i n ga p i ;x m _ l a b s t r a c t t h ea p p e a r i n go fd a t am i n i n gt e c h n o l o g yg i v eu san e wm e t h o dt o a c q u i r ek n o w l e d g ef r o mt h e a b u n d a l l td a 协w eh a v ea i l dt h ed a t am i n i n gs y s t e mc o n n e c t st h ed a t am i n i n gt e c h n o l o g ya n di l s 印p l i c a t i o n t h er e s e a r c ha f l dd e v e l o p m e n to fd a _ 亡am i n i n gs y s t e mc a nh e l pd a t am i n i n gt e c h n o i o g yt 0 b r o a d e ni t s 印p l i c a t i o na r e a f r o mt l l ep r a c t i c ea 1 1 de x p e r i e n c eo fd a t am i n i n gt e c h n 0 1 0 9 y s 印p l i c a t i o n , w eh a v e n c l u d e dt l l a tt i l es t a l l d a r d i z a t i o nw o r ki nd f l 诅m i n i n gc a nf a c i l i t a t et h ei n t e r o p e r a t i o nb e t w e e n d i f f b r e n td a t a m i n i n gs y s t e m s a n dc o m p o n e n t s ,s p r e a dt h e 印p l i c a t i o no fd a t a m i n i n gs y s t e m i n e n t e r p r i s ea n ds o c i e 哪 t h ec r o s s - i n d u s t r ys t a n d a r dp m c e s so fd a 诅m i n l m g ( c 刚s p - d m ) s t a i l d a r di sad a t am i n i g p r o c e s sm o d e l t h a ti sa c c e p t e dw i d e l yi nt h ed a t am i n i l l ga r e a t h m u g hm es t u d yo fc r j s p - d m ,t l i s p a p e rd e s i g n e da d a t am i n i n gs y s t e m 丘锄e w o r kw m c hc o n f i r m st 0t 1 1 ec i u s p - d ms t a n d a r da n d d e n n e dt i l ef i l n c t i o no fe a c h1 e v e l i nt h i sf r a m e w o r k t h ej a v ad a l am i n i n g ( j d m ) a p jj saa p p 】j c a t j o n p r o g r a m m i n gi n t e r f a c es t a i l d a r du s e dt 0d e v e l o pd r 岘m i n i n g 印p l i c a t i o nw h i c hi sp r o p o s e db yt h ej c p o 唱a n i z a l i o no fs u nc o m p a n yt h ed i 髓r e md a t am i n i n gp m d u c t st h a tc o n f i r r nt ot h ej d ma p i s t a n d a r dc a r ia c h i v et h ei n t e r o p e r a b i l i t yb e t w e e nt h e i rc o m p o n e n 协t h i sp a p e ra n a l y z e dt l i sf r a m e w o r k i nam o r ed e t a i l1 e v e lb a s e do nm es t u d yo fj d ma p is t a n d a r da n dd e s i g n e dad a 诅m gs y s t e m a r c m t e c t w eb a s e d0 nm ej d ma p it h j sp a p e ra l s or e s e a r c b e dt h ec o m p r i s eo fc o m p 。n e n t sj n 出j s a r c h i t e c t u r ea n dd e f i n e dt 1 1 e 眦t i o no fe a c hc o m p o n e m ,a n a l y z e dt h ec m c i a l t e c h n 0 1 0 9 yt h a ti n v o l v e d i nt h ed e v e l o p m e mo f t m sd a t am i n i n ga r c h i t e c t u r e t h em e t a d a t ai sv e r yi m p o r t a n tt o 也em 柚a g e m e n t 醐dc o n f i g u r a t i o no fd a t am i n i n gs y s t e m ,s o t h em e t a d a t am a n a g e m e n ti sa l s oa ni m p o n 觚tc o m p o n e n ti nt l l ed e s i g na n dd e v e l o p m e n to fd a 诅 m i n i n gs y s t e m t h i sp a p e rm a d ead e t a i l e d 锄a l y s i sa n dd e s i g l lo nm e t a d a t am a | l a g e m e n tc o m p o n e n to f t h es a i dd a t am i n i n gs y s t e ma r c h i t e c t u f e t h i sp a p e ra n a l y z e dt h ep r o b l e m sj nm e t a d a t am a n a g e m e n t a n dd e f l n e dan e u t r a lf o m l a tf o rm e t a d a t ao p e r a t i o n sa n dm e t a 出n ac o n t e n t st os e p a r a t et h em e t a d a t a o p e r a t i o n 舶mt 1 1 em e t a d a t as t o r em e c h a n i s ma 1 1 d 怄d i s p l a y t h u sd e s i g n e dan e x i b l ea n de x t e n s b l e m e t a d a t am a n a g e m e n ts u b s y s t e ma r c h “e c t u r e b a s e do nt h ea n a l ”i so fd i f i b r e n tm e t a d a t as t o r e m e c h 柚i s m ,t h i sp a p e rc h o s et h er e l a t i o n a ld a t a b a s em a n a g e r r 圮n ts y s t e ma st h em e t a d 砒as t o f e m e c h a n i s mt od e s i g nam e t a d a t am a n a g e m e n ts u b s y s t e mp r o t o t y p e i tr e s e a r c h e da 1 1 da n a l y z e dt h e t e c h n i c a lp r o b l e mi nt h e i m p l e m e m a t i o no ft l l ep r o t o t y p ea n di m p l e m e m e das i m p l em e t a d a t a m a n a g e m e n ts u b s y s t e m t h ei m p l e m e n t a t i o no ft h ep r o t o t y p ev e r 俯e dt h ec o r r e c t n e s so fl h em e t a d a t a m a n 唱e m e n ts u b s y s t e ma r c h i t e c t i l r ea 1 1 dc o m p o n c n t sd e s i g n ,p m v i d e dt h ep r a c t i c a lf o u n d a t i o nt ot h e d e v e l o p m e n t0 fe m i r ed a t am i n i n gs y s t e m 北京工业大学工学硕士学位论史 k e y w o r d sd a t am i n i n gs y s t e m ;m e t a d a 七am a n a g e m e m ;c r o s si n d u s 扛ys t a i l d a r dp r o c e s sf o rd a t am i n i n g ; j a v ad a t am i n i n ga p i ;x m l i v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了访f 意。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:鱼羹辉导师签名:主刍r 期:墅塾垡上必1 8 第1 章绪论 1 1 背景知识介绍 随着信息化时代的来临以及数据库技术、网络技术的迅速发展和应用,全球 范围内数据库中存储的数据量迅速增大,我们正在步入一个信息急剧膨胀爆炸的 时代。人们已不满足于仅仅利用现有的数据库管理系统对数据或信息进行查询和 检索,想进一步在这些数据上进行商业分析和科学研究。而数据量的爆炸性增长 使得传统的处理方法变得不切合实际,需要采用自动化程度更高、效率更高的数 据处理方法帮助人们处理大量数据,并提供有效的信息来解决“数据丰富而知识 贫乏”的问题。因此如何快速、准确地获得有价值的信息,如何理解和解释已有 的历史数据并用于预测未来的行为,如何从这些海量数据中发现知识,导致了知 识发现和数据挖掘领域的出现。 知识发现( k n o w i e d g ed i s c o v e r y ,简称k d ) 和数据挖掘( d a t am i n i n 最简称d m ) 是集统计学、人工智能、模式识别、并行计算、机器学习、数据库等技术的一个 交叉性的研究领域,是人工智能研究领域中的研究热点。数据库中的知识发现 ( k n o w l e d g ed i s c o v e r yi nd 8 t a b a s e ,简称k 加) 一词首先出现在1 9 8 9 年8 月在 美国底特律举行的第十一届国际联合人工智能学术会议上。随后在1 9 9 1 年、1 9 9 3 年和1 9 9 4 年都举行k d d 专题讨论会,汇集来自各个领域的研究人员和应用开发者, 集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。i ( d d 组委 会于1 9 9 5 年把专题讨论会更名为国际会议,并在加拿大蒙特利尔召开第一次k d d 国际会议。1 9 9 8 年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议 不仅进行了学术讨论,并且有3 0 多家软件公司展示了他们的数据挖掘软件产品。 数据挖掘从8 0 年代末产生以来得到了人们广泛而深入的研究,在9 0 年代得到了 迅速发展,并已初步显示出了其在应用领域中的巨大潜力。 数据挖掘定义的一种广义观点为:数据挖掘是从存放在数据库、数据仓库或 其他信息库中的大量数据中挖掘有趣知识的过程【l 】。数据挖掘功能用于指定数据 挖掘任务中要找的模型类型。数据挖掘任务一般可以分两类:描述和预测。描述 性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推 断,以进行预测。 在某些情况下,用户不知道他们的数据中什么类型的模式是有趣的,因此可 能想并行地搜索多种不同的模式。重要的是,数据挖掘系统要能够挖掘多种类型 的模式以适应不同的用户需求或不同的应用。此外,数据挖掘系统应当能够发现 各种粒度( 即不同的抽象层) 的模式。数据挖掘系统应当允许用户给出提示,指 导或聚焦有趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立,通 导或聚焦有趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立,通 北京工业大学工学砸士掌位论文 常每个被发现的模式带上一个确定性或“可信性”度量。数据挖掘功能以及他们 可以发现的模式类型可以分为以下几种: 概念类描述:特征化和区分 概念描述是描述性数据挖掘的一种最简单类型。概念通常指数据的汇 集,概念描述用于产生数据的特征化和比较描述。当被描述的概念涉及对象 类时,有时也称概念描述为类描述。这种描述可以通过下述方法得到: 夺数据特征化,一般地汇总所研究类( 通常称为目标类) 的数据: 夺数据区分,将目标类与一个或多个比较类( 通常称为对比类) 进行 比较; 夺数据特征化和比较,数据特征化是目标类数据的般特征或特征的 汇总。通常,用户指定类的数据通过数据库查询收集。 关联分析 关联分析发现关联规则,这些规则展示属性一值频繁地在给定数据集中 一起出现的条件。关联分析广泛用于购物篮和事务数据分析。 更形式她,关联规则是形如x y ,即“a 1 八 a i 玎ob 1 八八b n , 的规则,其中,缸( i 1 ,m ) ) ,b j ( j 1 ,n ) ) 是属性一值对。关联 规则x = y 的解释为“满足x 中条件的数据库元组多半也满足y 中条件”。 分类和预测 分类找出描述并区分数据类或概念的模型( 或函数) ,以便能够使用模 型预测类标记未知的对象类。导出模型是基于对训练集( 即其类标记已知的 数据对象) 的分析。导出模型可以用多种形式表示,如分类规则、判定树、 数学公式或神经网络。分类可以用来预测数据对象的类标记。然而,在某些 应用中,人们可能希望预测某些空缺的或不知道的数据值,而不是类标记。 当被预测的值是数值数据时,通常称之为预测。尽管预测可以涉及数据值预 测和类标记预测,通常预测限于值预测,并因此不同于分类。预测也包含基 于可用数据的分布趋势识别。 聚类分析 与分类和预测不同,聚类分析数据对象,而不考虑已知的类标记。一般 情况下,训练数据中不提供类标记,因为不知道从何开始。聚类可以用于产 生这种标记。对象根据最大化类内的相似性,最小化类间的相似性的原则进 行聚类或分组。即对象的簇( 聚类) 这样形成:使得在一个簇中的对象具有 很高的相似性,而与其他簇中的对象很不相似。所形成的每个簇可以看作 个对象类,由它可以导出规则。聚类也便于分类编制,将观察到的内容组织 成类分层结构,把类似的事件组织在一起。 第1 章绪论 孤立点分析 数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一 致。这些数据对象是孤立点。大部分数据挖掘方法将孤立点视为噪声或异常 而抛弃;然而,在一些应用中( 如欺骗检测) ,罕见的事件可能比正常出现 的那些更有趣。孤立点数据分析称作孤立点挖掘。孤立点可以使用统汁试验 检测。 演变分析 数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。 尽管这可能包括时间相关数据的特征化、区分、关联、分类或聚类,这类分 析的不同特点包括时间系列分析、序列或周期模式匹配和基于类似性的数据 分析。 1 2 国内外研究概况 数据挖掘在产生后的十几年来得到了国内外众多学者的广泛关注和研究,除 了美国人工智能协会主办的k d d 国际会议年会外,还有许多的数据挖掘年会, 包括p a d ( ,p k d d ,s l m d a t am i n i n g 等,其他内容的专题会议也把数据挖 掘和知识发现列为议题之一,成为计算机科学界的一大热点【2 1 。因此虽然数据挖 掘产生的时间不长,但却取得了飞速的发展。在早期人们的研究重点主要放在数 据挖掘的具体功能和各种挖掘算法上,并研究出了许多实用、高效的挖掘算法。 数据挖掘技术所表现出来的广阔应用前景吸引了国内外众多的研究人员和 商业机构,因此从9 0 年代中期人们开始重视数据挖掘工具和数据挖掘系统应用 的研究,研究重点逐渐从发现方法转向系统应用,并且注重多种发现策略和技术 的集成,以及多种学科之间的相互渗透,开发出了许多应用系统和原型 3 j “。如 加拿大s i m o n f r a s e r 大学“智能数据库系统研究室”研制开发出了数据挖掘系统 d b m i n e r 【1 j ,d b m i n e r 实现了关联、时间序列分析、分类、聚类等算法。澳大利 亚国立大学研制并开发了数据挖掘系统原型d m t o o l s ,d m t 0 0 1 s 是多任务的数据 挖掘系统,创建了数据分析和探索的中间件,并丌发了一种基于p y t h o n 脚本语 言的数据挖掘语言。德国d o n m u l l d 大学的在研项目m i n i n g m a n ,将数据和知识 管理集成,利用领域知识,从大规模的分布数据中利用挖掘技术发现知识【2 】。新 西兰怀卡托大学( w a i k a t ou n i v e r s i t y ) 由l a nhw i t t e n 教授等人研究实现了丌源的 基于j a v a 语言的数据挖掘工具w e k a 5 ,w e k a 中集成了多种用于数据挖掘任务的 机器学习算法,这些算法既可以直接用于数据集,也可以从用户自己的j a v a 代 码中调用。w e k a 包含了用于数据预处理、分类、回归、聚类、关联规则和可视 化的工具,同时w e k a 也支持使用者添加自己实现的机器学习算法。在国内从事 数据挖掘系统应用研究的主要有中科院计算所智能处理丌放实验室的史忠植教 授等研究开发的多策略数据挖掘工具m s m i n e r 【6 i ,复旦大学朱扬勇教授等人研究 实现了d m i n e r 、客户智能分析平台c 认s 7 】等数据挖掘工具,c 队s 建立在数据 挖掘工具集d m i n e r 的基础上,是数据挖掘技术在c r m 客户关系管理领域的应 用。 除了大学等研究机构在数据挖掘系统方面做了大量的工作外,由于数据挖掘 蕴含的商业价值和广阔的市场前景,很多商业机构也投入了大量的人力物力进行 数据挖掘系统的开发工作,当前也已经出现了许多较为成熟的商业化数据挖掘系 统软件,其中比较有影响的有mi n t e l l i g e n tm i n e r 、s p s sc l e m e n t i n e 、s a s e n t e r p r i s e m i 懈等。 数据挖掘应用方面,在国外,在大型零售业、金融业、保险业、民航等大型 企业都已经开始大量利用数据挖掘工具来协助其业务活动。国内目前总体上仍处 于理论及其方法方面的探讨、应用试验阶段,除了一些简单的统计分析以外,绝 大部分企业还不具备这方面的知识和技能。但最近两年来,国内一些大型企业或 金融机构如电力、电信等行业已经认识到数据挖掘的先进性和必要性,开始了这 方面的立项和实施工作。 虽然已经出现了许多数据挖掘系统原型及产品,但是当前的数据挖掘系统之 间在功能及操作方面并没有一种统一的标准,不同的数据挖掘产品在数据挖掘功 能和方法上很少有相似性,有时甚至在完全不同的数据集上工作 1 ,不利于数据 挖掘功能模块和挖掘模型的共事。在人们逐渐认识到数据挖掘标准对于数据挖掘 应用发展的重要作用后,人们开始进行数据挖掘标准方面的研究【8 9 1 ,数据挖掘 国际会议k d d 也在2 0 0 0 年开始专门开辟了标准专题讨论区,数据挖掘标准包 括数据挖掘查询语言、数据挖掘过程标准、数据挖掘接口标准以及数据挖掘建模 等方面的标准,如j i a w e ih a i l 教授等人研究的数据挖掘操作原语d m o “”,微软 提出的0 l e d bf o rd m 1 0 】,数据挖掘的工业标准过程c r s p d m ,j a v ad a t a m i n i n ga p i 【”】 1 3 】,预测模型标记语言p m ml 【“】【1 5 1 等标准相继出现。这些标准的 出现为数据挖掘系统及其应用起到了一定的推动作用,其中某些标准也开始得到 业界的认同和接受,如目前在h l t e l l i g c n tm i n e r 、c l e m e m i n e 和e n t e r p r i s em i n e r 产品中都提供了对p m m l 2 1 规范的支持,方便了不同产品间挖掘模型的交换。 实践和经验表明,标准的数据挖掘语言或其他方面的标准化工作将有助于推动数 据挖掘系统的开发工作,改进多个数据挖掘系统和功能间的互操作性,促进数据 挖掘系统在企业和社会中的使用和推广。因此数据挖掘标准化将是数据挖掘应用 进一步推广的必然之路,数据挖掘系统遵循现有标准也是一个必然的发展趋势。 元数据的获耿、展现和处理有助于人们对数据的理解、管理和持久性使用, d 同时也可以更好的支持当前在线处理中繁杂信息的开采利用。虽然当前人们已经 开始关注元数据管理的研究,但是对元数据管理的目的、需求和存在的问题的认 识仍然比较模糊。元数据的获取、产生和管理通常在知识仓储( r e p o s i t o 忉中进行, 人们主要通过以下两种方式来使用元数据| i6 】:1 ) 作为对系统结构等信息的描述 性文档,如对系统数据库中的表结构和字段等信息的描述。2 ) 作为系统的控制 信息。如对系统中的静态信息如配置信息等进行描述的元数据,对系统某部分的 控制逻辑如条件,方法,存储过程的参数等进行描述的元数据。这些表示控制信 息的元数据存储在r 印o s i t o r y 中,位于应用程序外部。在系统运行时,这些信息 被读入,解释并动态绑定到程序的执行过程中。当新的系统需求出现时,这些元 数据可以轻易地被改变而不会影响相关的系统程序。 当前人们对元数据管理的研究主要集中在数据仓库领域,因为数据仓库中的 数据是从多个( 异种) 数据源中进行数据抽取、转换、集成等过程得到的,并且用 户会基于数据仓库建立各种数据分析工具因此在这样一个复杂的企业数据环境 中,如何以安全、高效的方式来对元数据进行管理和访问就变得至关重要。当前 商业市场上与元数据相关的数据仓库工具大致可分为四类:1 ) 数据抽取工具; 2 ) 前端展现工具:3 ) 建模工具;4 ) 元数据存储工具。但是对于元数据的管理, 各个解决方案都没有明确提出一个完整的管理模式,它们提供的仅仅是对特定的 局部元数据的管理。 由于元数据在数据仓库中起着非常重要的作用,因此一个统一的元数据描 述、交换标准和集成对数据仓库的建立以及各种工具间的集成是非常重要的。为 此先后出现了元数据联盟m d c ( m e t ad a t ac o a l i t i o n ) 的开放信息模型o 订( o p e n h l f 0 衄a t i o nm o d e l ) 和对象管理组织o m g ( 0 b j e c tm a n a g e m e n tg r o u p ) 的公共仓库 元模型c w m ( c o m m o nw a r e h o u s em e t a m o d e l ) 两个标准,2 0 0 0 年m d c 和0 m g 两大组织合并,新的o m g 在2 0 0 1 年2 月发布了c w m1 o 【1 7 】,为数据仓库厂商 提供了统一的元数据标准,从而为元数据管理的发展铺平了道路。 1 3 本文研究内容 本文主要包括数据挖掘系统框架和数据挖掘系统中元数据管理两个部分的 研究内容。 在第一部分数据挖掘系统框架研究中,通过对数据挖掘的工业标准 c r i s p d m 的分析提出了一种符合c r i s p d m 标准的数据挖掘系统框架,定义了系 统框架的组成和结构,并对框架内的各组成部分的功能以及各个组成部分问的联 系作了详细的分析和定义。通过对j a v a 数据挖掘接口舰范j d m a p i 的分析和研 究,对数据挖掘系统框架进行了进一步的细化,设计出了一种遵循j d ma p i 规 北京t 业_ 人学丁学坝卜学位论 范的具有通用性和开放性的数据挖掘系统体系结构,划分了体系结构中的功能模 块组成,对各个功能模块的功能和作用进行了详细的定义,并对数据挖掘系统实 现中的一些关键技术进行了分析。 在第二部分数据挖掘系统元数据管理研究中,通过对数据挖掘系统中元数据 管理内容的分析,设计出了一种与底层元数据物理存储机制无关的、具有良好可 扩展性的元数据管理子系统体系结构,并定义了体系结构中具体的功能模块构 成。对元数据管理子系统体系结构中的元数描述格式进行了详细的设计和定义, 并以关系型数据库作为元数据物理存储机制为例对体系结构中的元数据操作引 擎的实现机制和具体实现技术进行了详细的分析和设计,并实现了一个小型的元 数据管理子系统原型。 1 4 文章组织结构 本文在第一章中首先对数据挖掘技术的产生、发展及其功能作了简要的介 绍,随后介绍了数据挖掘系统与数据挖掘技术间的关系及数据挖掘系统对数据挖 掘技术发展的推动作用,并概述了当前国内外在数据挖掘系统领域的研究进展和 研究概况,进而介绍了数据挖掘标准在数据挖掘系统发展过程中的重要作用。接 下来对元数据的概念及其发展进行了介绍。 在第二章中,本文首先对数据挖掘系统的发展阶段进行了论述,并分析了数 据挖掘系统的组成结构。接下来对数据挖掘的工业标准过程c r j s p d m 和j a v a 数据挖掘接口规范j d ma p i 进行了分析和介绍,通过对c r s p d m 的分析设计 了一种数据挖掘系统框架,并对框架内的各个组成部分及其作用进行了详细地分 析和定义。进而根据j d ma p i 规范和数据挖掘系统框架设计出了数据挖掘系统 的体系结构,对体系结构中的功能模块划分及各模块的作用进行了详细的定义。 随后对数据挖掘系统中涉及到的关键技术进行了分析,介绍了文中设计的系统框 架的特色。 在第三章中,本文对元数据管理子系统进行了总体设计。文中首先对元数据 的概念、作用、元数据的管理内容、管理策略及元数据标准进行了简要地介绍, 接下来论述了数据挖掘系统中元数据管理子系统的设计原则和采用的技术方案。 设计出了元数据管理子系统的体系结构和功能模块构成,详细分析了系统中各个 功能模块的作用。 在第四章中,本文对元数据管理子系统中关键模块的实现技术进行了分析与 设计。首先对系统中元数据操作描述和元数据内容描述的描述格式进行了定义, 设计了一种与底层元数据存储方式相独立的描述机制。接下来分析了当前元数据 的各种存储方式并选择了关系型数据库作为原型系统的存储方案并对元数据的 第l 荦缔沦 存储结构进行了详细设计。接下来对元数据操作引擎中的关键技术进行了详细设 计并设计出了具体的实现方式。 在第五章中,本文对实现的元数据管理予系统的原型系统中的主要功能进行 了介绍,验证了前文中对数据挖掘系统中元数据管理子系统的总体分析和详细设 计的可行性。 第2 章数据挖掘系统框架研究 第2 章数据挖掘系统框架研究 数据挖掘系统架起了数据挖掘研究与数据挖掘应用之间的一座桥梁,数据挖 掘系统的研究和开发将有利于推动数据挖掘应用的进一步推广,促进数据挖掘技 术的发展。本章中将首先对数据挖掘系统的发展阶段作一简要的介绍,然后通过 对数据挖掘的工业标准过程c i u s p d m 和j a v ad a t am i n i n ga p i 标准的探讨对数 据挖掘系统框架和体系结构作进步的研究,对数据挖掘系统中的功能模块划分 以及各功能模块的作用进行定义,并对数据挖掘系统实现中涉及到的关键技术进 行分析。 2 1 数据挖掘系统发展的四个阶段 按照g r o s s m a i l 的观点,可以将数据挖掘系统的发展分为四代【1 8 】: 第一代数据挖掘系统是一个作为独立应用的软件,实现了一个或几个算法, 主要用来挖掘向量数据,挖掘时这些数据一般是一次性调入内存进行处理的。因 此第一代系统不适用于大数据量的处理。 第二代数据挖掘系统的概念较早是由i m i e l i n s k i 和m a 加i l a 在1 9 9 6 年提出 的,并由n n a n i 在1 9 9 8 年实现了第一个第二代数据挖掘系统。第二代系统开 始与数据库管理系统进行集成,支持数据库、数据仓库,并和它们之间设计有高 性能的接口,提高了系统的扩展性,能够处理大量的、复杂的数据。第二代系统 还通过支持数据挖掘模式和数据挖掘查询语言提高了系统的灵活性和可交互性。 如j i a w e ih a n 教授等人研究的d b m i l l e r 系统就是基于d m q l 语言进行挖掘操作 的。 第三代数据挖掘系统的一个特征是能够挖掘i n t e m e t ,e x 廿a n e t 的分布式和高 度异质的数据,并且能够有效地和操作型系统集成。另一个特征是系统产生的预 言模型能够自动和操作型系统进行集成,从而和操作型系统中的预言模型相联合 提供决策支持功能。 第四代数据挖掘系统的概念是由g r o s s m a n 在1 9 9 8 年提出的,但目前还没有 类似的实际系统出现。第四代系统能够挖掘嵌入式系统、移动系统、和普遍存在 ( u b i q u i t o u s ) 计算设备产生的各种类型的数据。 从总体的研究状况来看,当前人们的研究主要集中在第二代和第三代系统 上l j9 】,当前的许多商业软件都属于第二代数据挖掘系统,第三代系统主要还处 在研究阶段。 2 2 数据挖掘系统结构分析 典型的数据挖掘系统具有如图2 一l 所示的主要成分 1 1 : 北京工业大学工学硕士学位论文 数据库、数据仓库或其他信息库 这是一个或一组数据库、数据仓库、电子表格或其他类型的信息。可以在数 据上进行数据清理和集成。 数据库和数据仓库服务器 根据用户的数据挖掘要求,数据库和数据仓库服务器负责提取相关数据。 数据 图2 一l 典型的数据挖掘系统结构”1 f 培u r e2 - lt y p i c a ls t r u c t i l r eo f d a t am i n i n gs y s t e m u 知识库 这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包 括概念分层,用于将属性或属性值组织成不同的抽象层。用于确信方面的知识也 可以包括在内。可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识 的其他例子有兴趣度限制或阀值和元数据,例如,描述来自多个异种数据源的数 据。 数据挖掘引擎 这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征化、关联、 分类、聚类分析以及演变和偏差分析。 模式评估模块 通常此成分使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有 趣的模式上。它可能使用兴趣度阀值过滤发现的模式。模式评估模块也可以与挖 第2 章数据挖掘系统框架研冤 掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘, 建议尽可能深地将模式评估推进到挖掘过程之中,以便将搜索限制在有兴趣的模 式上。 图形用户界面 本模块在用户和数据挖掘系统之间通信,允许用户和系统交互,指定数据挖 掘查询和任务,提供信息、帮助搜索聚焦,再根据数据挖掘的中白j 结果进行探索 式数据挖掘。此外,此成分还允许用户浏览数据库和数据仓库模式或数据结构, 评估挖掘的模式,以不同的形式对模式可视化。 2 3 数据挖掘系统框架研究 2 3 1c r i s p d m 标准探讨 一个标准化的数据挖掘过程有助于形成一个可以有效记录工作经验的统一 体系( 有利于重现己完成的项目) ,也有助于进行项目计划和项目管理,还有助 于使新手顺利地完成数据挖掘的整个工作流程。 目前,最有影响的数据挖掘标准过程模型就是数据挖掘的工业标准过程 ( c r o s si n d u s t r ys t a n d a r dp r o c e s sf o rd a t am i n i n g ,c i u s p d m ) ,已有超过2 0 0 家公司和组织认同其标准地位,其中包括i b m 、s p s s 、s g i 、n c r 等知名公司。 c s p d m 主要倡导的理念是:提倡标准过程行业内共享;建立与应用背景无关 的标准过程;建立与所用数据挖掘工具无关的标准过程;建立具有普遍指导意义 的标准过程。 c i u s p d m 是一个分级的过程模型,它将整个数据挖掘工作分解成四个层次 ( l e v e l ) 和六个阶段( p h a s e ) 。四个层次分别是p h a s e ,g e n e r i ct a s k ,s p e c i a l i z e dt a s k , p r o c e s si n s t a n c e 。每个p h a s e 由若干g e n e r i ct a s k 组成,每个g e n e r i ct a s k 又实施若 干s p e c i a l i z e dt a s k ,每个s p e c i a l i z e dt a s k 由若干p r o c e s si n s t a n c e 来完成。其中, 上两层独立于具体数据挖掘方法,即是一般数据挖掘项目均需实旌的步骤,这两 层的任务将结合具体数据挖掘项目的“上下文”( c o n t e x t ) 映射到下两层的具体任 务和过程。所谓项目的“上下文”是指项目丌发中密切相关、需要综合考虑的一些 关键问题,如应用领域、数据挖掘问题类型、技术难点、工具及其提供的技术等。 如何完成每个阶段所要完成的任务及任务的输出所要求的必要映射活动在 c 砸s p d m1 o 版用户指南【1 1 1 中作了较为具体的描述。四个层次间的关系如图2 2 所示: 北京工业大学工学硕士学位论文 c j u * l i w 州甜d m 卵脚喀 i c r 【s p p “u 斜 图2 一c r j s p d m 的四个层次 f i g u r e 2 f o u r l e v e lb r e a k d o w no f 廿1 ec r i s p d mm e t h o d 0 1 0 9 y f l c r i s p d m 六个阶段分别为:b u s i n e s su n d e r s t a n d i n g ,d a t au n d e r s t a n d i n g , d a t ap r e p a r a t i o n ,m o d e l i n g ,e v a l u a t i o n ,d e p l o y m e n t 。阶段间的顺序并不严格, 阶段间有循环( 内层循环,见细线箭头方向) ,项目的总体实施是按阶段循环进 行的( 外层循环,见粗线箭头方向) ,六个阶段间的关系如图2 3 所示。六个阶 段的含义和每个阶段和包含的任务为: 图2 3c 砒s p d m 参考模型中的六个阶段c j f j f l g u r e 2 _ 3p h a s e s0 f t h ec r i s p d m r e f e r e n c em o d e l l 第一个阶段为业务理解,丌始阶段专注于从商业的角度理解项目目标和需 求,然后将这种知识转换成一种数据挖掘的问题定义,并设计出达到目标的一个 初步计划。清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的关键前提。 第2 章数据挖掘系统框架研冗 挖掘的最后结果是不可预测的,但要探索的问题应是有预见的,如果盲目地去进 行数据挖掘,是不会成功的; 第二个阶段为数据理解,在数据理解阶段,先收集初步的数据,然后进行熟 悉数据的各种活动,包括识别数据的质量问题、找到对数据的基本观察、或假设 隐含的信息来检测出感兴趣的数据子集; 第三个阶段为数据预处理,数据预处理阶段覆盖了从初步粗数据构造最终数 据集合( 将要输入建模工具的数据) 的所有活动。数据预处理任务很可能要执行 多次,并且没有任何规定的顺序。任务包括表、记录属性的选择以及为了适合建 模工具的要求对数据进行的转换和净化; 第四个阶段为挖掘模型建立,在建模阶段,可以选择和应用各种建模技术, 并将其参数校正到优化值。通常,对同一个数据挖掘问题类型有几种可用的技术。 某些技术对数据的形式有具体的要求。因此,常常要退回到数据准备阶段; 第五个阶段为评估,从数据分析的观点看,在开始进入这个阶段时已经建立 了看上去是高质量的模型。但在最终扩展模型之前,更彻底地评价模型、对所建 模型再次考察其执行的步骤、并确信其正确地达到了商业目标是很重要的。这里, 一个关键的目的是确定是否有某些重要的商业问题还没有充分地考虑。在这个阶 段的结尾,应该获得使用数据挖掘结果的判定; 第六个阶段为部署,一般来说,创建完模型并不意味着项目结束。即使模型 的目的是增加数据的知识,所获得的知识也要用一种用户可以使用的方式来组织 和表示。根据要求,扩展阶段可以简单到只生成一份报告,或复杂到实现一个可 重复的数据挖掘过程。在许多情况下,这将由客户而不是分析员来实施。因为分 析员来实施扩展将达不到预期的扩展效果,因此在这之前,客户理解实际利用所 建模型所要实施的动作是很重要的。 2 3 2j a v ad a t am i n i n ga p i 标准探讨 一个完整的数据挖掘系统应该包括挖掘算法管理、挖掘模型管理、数据源管 理和系统元数据管理等核心功能,而当前的各种标准都是针对某个功能提出的, 如p m m l 是为了实现挖掘模型表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 士石方运输合同模板
- 不押车借款合同模板
- 二手车 合同模板
- 入职酒店合同模板
- 2024年企业级区块链解决方案开发合同
- 2024年8大数据分析与处理服务合同
- 厂房全套转让合同模板
- 临时雇佣安全合同模板
- 借贷八厘合同模板
- 出资供建合同模板
- DB35T 2113-2023 幸福河湖评价导则
- 湖北省武汉市部分重点中学2025届物理高一第一学期期中学业水平测试试题含解析
- 安保工作考核表
- 2024年国家公务员考试《行测》真题(副省级)
- 2023-2024学年冀教版八年级上册期中复习试卷(含解析)
- 广东省广州市2019年中考英语真题(含答案)
- 期货基础知识真题汇编5
- 税务代理合同模板
- 研究生考试考研英语(二204)试卷及答案指导(2024年)
- 儿科题库单选题100道及答案解析
- 2024-2030年中国融合通信行业市场深度调研及发展趋势与投资前景研究报告
评论
0/150
提交评论