(计算机应用技术专业论文)基于oracle+10g网格平台的数据分析系统设计与实现.pdf_第1页
(计算机应用技术专业论文)基于oracle+10g网格平台的数据分析系统设计与实现.pdf_第2页
(计算机应用技术专业论文)基于oracle+10g网格平台的数据分析系统设计与实现.pdf_第3页
(计算机应用技术专业论文)基于oracle+10g网格平台的数据分析系统设计与实现.pdf_第4页
(计算机应用技术专业论文)基于oracle+10g网格平台的数据分析系统设计与实现.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 蹦莳,由于互联网的高速发展,网格计算已经成为近年来国际上兴起的一 种重要信息技术。其目的是把因特网上的资源组织在一个大框架下,为解决大 型的科学计算,数据服务和网络信息服务提供一个方便用户使用的虚拟平台。 数据网格是基于广域网对海量、分布异构的数据资源进行管理、访阅和共享的 系统。目前,数据网格多数研究致力于制定网格环境下访问数据库的协议和中 间件。但是往往忽略了数据网格对数据的处理能力。因此,砑究和构建一种专 用于数掘处理的高效数据网格平台成为迫切需要。 o r a c l e1 0 9 是专门为网格计算所开发的基础架构软件。它的网格优势主要体 现在:网格软件供应,安全及身份管理,应用程序管理及监控,工作负载管理, 系统管理等。因此,利用o r a c l el o g 构建网格平台,将更好的解决数据网格数据 处理的低效问题。 本文首先分析和比较了几种现有的数据网格平台,分析了用于构建网格平 台的主要技术,然后介绍了o r a c l e1 0 9 在构建网格平台方西的优势,本文重点研 究和探讨如何根据应用来构建数据网格平台。 文中详细阐述了根据实际应用利用o r a c l e 组件构建一种全新网格平台的软 件架构,实现方法和获得的性能,并于平台上开发了一个用于税务数据分析和 挖掘的网格系统,用来验证数据网格对数据处理的能力。本文提出了种基于 分布式数据流频繁项的数据更新算法,根据分布式数据的需求和使用特性进行 有选择的数据更新,用以解决网格中数据的全部更新所带来的低效性,并把算 法应用到所开发的税务网格中,共同验证所构建的数据网格平台的高效数据处 理能力。 关键词: o r a ci el o g 网格;数据网格:网格环境下的数据更新 东l 艺l 瞧力大学磺 :学位论文 a b s t r a c t a tp r e s e n t ,d u et ot h e r a p i dd e v e l o p m e n to f t h e i n t e r n e t ,g r i d c o m p u t i n gh a sb e c o m et h eh o tp o i n to fi n f o r m a t i o nt e c h n o l o g yi n t h e w o r l d i t sp u r p o s ei st oi n t e g r a t et h er e s o u r c e so nt h ei n t e r n e ti n t oa b i gf r a m e w o r k 。i no r d e rt os o l v el a r g e - s c a l es c i e n t i f i cc o m p u t i n g ,d a t a s e r v i c e sa n dn e t w o r ki n f o r m a t i o ns e r v i c e s ,g r i dc o m p u t i n gp r o v i d e sa u s e r f r i e n d l yv i r t u a lp l a t f o r m d a t ag r i di sb a s e do nt h ew a nm a s s i v e , h e t e r o g e n e o u sd i s t r i b u t i o no fd a t ar e s o u r c em a n a g e m e n t ,a c c e s sa n d s h a r in gs y s t e m c u r r e n tly ,t h em a j o r it yo fd a t ag r i ds t u d yi st od e v e l o p ag r i de n v i r o n m e n to ft h ep r o t o c a l sa n dm i d d l e w a r ef o ra c c e s s i n gd a t a f r o md a t a b a s e b u tw eo f t e nn e g l e c tt h eh a n d lin gc a p a c i t yo fd a t ai nd a t a 。g r i d t h e r e f o r e ,t or e s e a r c ha n dc o n s t r u c tah i g h l ye f f i c i e n td a t a p r o c e s s i n gd a t ag r i dp l a t f o r mi sa nu r g e n tn e e d o r a c l el o gi st h ei n f r a s t r u c t u r es o f t w a r ed e s i g n e df o rt h ed e v e l o p m e n to f t h eg r i dc o m p u t i n g i t sg r i ds u p e r i o r i t yi se m b o d i e dm a i n l yi n : g r i ds o f t w a r es u p p l i e r s ,s e c u r i t ya n di d e n t i t ym a n a g e m e n t ,a p p l i c a t i o n m a n a g e m e n ta n dm o n it o r i n g ,w o r kl o a dm a n a g e m e n t ,s y s t e m 。m a n a g e m e n t 。 t h e r e f o r e ,u s i n g o r a c l el o gg r i dc o n s t r u c t i o np l a t f o r mw i l ls o l v et h e d a t ag r i dd a t ap r o c e s s i n gi n e f f i e i e n c i e sb e t t e r 。 , i nt h i sp a p e r ,it a k et h ea n a l y s i sa n dc o m p a r i s o no fs e v e r a le x i s t i n g d a t ag r i dp l a t f o r m ,a n a l y s et e c h n o l o g yu s e dt ob u il dt h em a i np l a t f o r m f o rg r i d t h e ni n t r o d u c eo r a c l el o gi nb u i l d i n gg r i dp l a t f o r m sa d v a n t a g e s 。 t h i sp a p e rf o c u s e so na n de x p l o r e sh o wt ob u il d d a t ag r i dp l a t f o r m a c c o r d i n gt ot h ea p p l i c a t i o n 。 a c c o r d i n gt ot h ep r a c t i c a la p p l i c a t i o n ,t h i sp a p e re l a b o r a t eh o w t ou s eo r a c l eg r i dc o m p o n e n t st oc o n s t r u c tan e wp l a t f o r m ,i t ss o f t w a r e a r c h i t e c t u r e ,i l l l p l e m e n t a t i o n m e t h o da n dt h e p e r f o r m a n c e o f t h e p l a t f o r m d e s i g nt h ed e v e l o p m e n to fap l a t f o r mf o rt h ea n a l y s i so ft h e t a xd a t ag r i d i tv a l i d a t e st h ed a t ap r o c e s s i n gc a p a c i t yo ft h ep l a t f o r m t h isp a p e rp r e s e n t sad a t au p d a t i n ga l g o r i t h mb a s e do nt h ef r e q u e n ti t e m s 一“一 a b s t r a c t 曼曼拦i i ii, !i i i iiiii, ! - ! o ft h ed i s t r i b u t e dd a t af l o w ,a c c o r d i n gt ot h en e e d so fd i s t r i b u t e dd a t a a n da p p li c a t i o nc h a r a c t e r i s t i c s 。i ti sas e l e c t i v ed a t au p d a t i n gt os o l v e t h ei n e f f i c i e n c yo fd a t au p d a t e i n gi ng r i d ,a n dt h ea l g o r i t h ma p p l i e d t ot h et a xg r i d ,t o g e t h e rw i t ht h et a xg r i dt ov e r i f i c a t et h ee f f i c i e n t d a t ap r o c e s s i n gc a p a b i l i t i e so f t h ed a t ag r i dp l a t f o r m + k e y w o r d s :o r a c l e1 0 9g ri d :d a t ag ri d :d a t au p d a t i n gi ng ri de n v i r o n m e n t | i i 论文原创性声明 本人声明,所呈交的学位论文系在导师指导下本人独立完成的研究成果。 文中依法引用他人的成果,均已做出明确标注或得到许可。论文内容未包含法 律意义上已属于他人的任何形式的研究成果,也不包含本人已用于其他学位申 请的论文或成果。 本人如违反上述声明,愿意承搀以下责任和后果: 1 交回学校授予的学位证书; 2 。学校可在相关媒体上对作者本人的行为进行通报; 3 本人按照学校规定的方式,对因不当取得学位给学校造成的名誉损害, 进行公- 丌道歉; 4 本人负责因论文成果不实产生的法律纠纷。 、,l , 论文作者签名:塑! 型日期: 垫! 窭年互月立生网 论文知识产权权属声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属东北电 力大学。学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权 利。本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时, 署名单位仍然为东北电力大学。 论文作者签名: 导师签名: 日期:逊& 年立月丝日 日期:j 盥笠年月牟吕 簿1 章绪 论 第1 章绪论 1 1 课题研究的背景和意义 近几十年来,科学技术的迅猛发展和信息化的推进,使褥人类社会所积累 的数据量已经超过了过去5 0 0 0 年的总和,数据的采集、存储、处理和传播的数 量也与日俱增。企业实现数据共享,可以使更多的人更充分地使用已有数据资 源,减少资料收集、数据采集等重复劳动和相应费用。但是,在实施数据共享 的过程当中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数 据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格 式后丢失信息等棘手问题,严重阻碍了数据在各部f - j s u 各软件系统中的流动与 共享。因此,如何对数据进行有效的集成管理已成为增强企业商业竞争力的必 然选择。 由于现代企业的飞速发展和企业逐渐从个孤立节点发展成为不断与网络 交换信息和进行商务事务的实体,企业数据交换也从企业内部走向了企业之间; 同时,数据的不确定性和频繁变动,以及这些集成系统在实现技术和物理数据 上的紧耦合关系,导致一旦应用发生变化或物理数据变动,整个体系将不得不 随之修改。因此,我们进行数据集成将面临着如何适应现代社会发展的复杂需 求、有效扩展应用领域、分离实现技术和应用需求、充分描述各种数据源格式 以及发布和进行数据交换等问题。 数据集成概念正是把不同来源、格式、特点性质的数据在逻辑上或物理上 有机地集中,从丽为企业提供全面的数据共享。在企业数据集成领域,已经有 了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓 库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享 问题和为企业提供决策支持。 联邦数据库系统( f d b s ) 由半自治数据库系统构成,相互之间分享数据,联 盟各数据源之间相互提供访问接口,同时联盟数据库系统可以是集中数据库系 统或分布式数据库系统。异构松耦合数据库往往不提供统一的接网,但可以通 过统一的语言访问数据源,其中核心的是必须解决所有数据源语义上的问题。+ 中间件模式通过统一的全局数据模型来访闷异构的数据库、遗留系统、w e b 衷j l 乜力大学碳 ? 学位论文 曼i i i i 一, 一 i ii_ i i i ii i i i ! 尝 资源等。中间件位于异构数据源系统( 数据层) 和应用程序( 应用层) 之间,向下 协调各数据源系统,向上为访问集成数据的应用提供统一数据模式和数据访问 的通用接口。各数据源的应用仍然完成它们的任务,中间件系统则主要集中为 异构数据源提供一个高层次检索服务。 数据仓库是在企业管理和决策中面向主题的、集成的、与时阎相关的和不 可修改的数据集合。其中,数据被归类为广义的、功能上独立的、没有重叠的 主题。这几种方法在一定程度上解决了应用之闯的数据共享和互逶的闯题,但 也存在以下的异同:联邦数据库系统主要面向多个数据库系统的集成,其中数据 源有可能要映射到每一个数据模式,当集成的系统很大时,对实际开发将带来 巨大的困难。 中间件模式是目前比较流行的数据集成方法,它通过在中间层提供一个统 一的数据逻辑视图来隐藏底层的数据细节,使得用户可以把集成数据源看作一 个统一的整体。这种模型下的关键问题是如何构造这个逻辑视图并使得不同数 掘源之间能映射到这个中间层。 数据仓库技术则在另外一个层面上表达数据之阆的共享,它主要是为了针 对企业某个应用领域提出的一种数据集成方法,也就是面向主题并为企业提供 数据挖掘和决策支持的系统。 、 数据网格。是基于广域网对海量、分布异构的数据资源进行管理、访问和 共享的系统。数据库网格一。是随着公有数据库资源的丰富而提出的概念,是以 数据库为主要资源的数据网格系统,可为上述应用提供良好的支持。 数据网格以数据库为主要资源,它将传统的数据集成推广到网格中。一方 面,数据集成已经成熟的技术,为数据网格的大规模数据整合提供了技术框架, 特别在企业数据集成领域,商业智能等所需的大规模数据分析挖掘不再局限于 本地数据的集成分析,异地异构数据库数据优化集成,在原始数据的提取过程 中已经开始进行清洗。分布式数据库技术在一定程度上提供了分布式数据集成。 但是,分布式数据库在数据管理,数据优化等方面多依赖于数据库本身的处理 能力。同时,商业领域的数据分析,数据挖掘,已经不再满足于静态数据的处 理,动态数据以其强大的时效性著称。某些业务分析如果基于时间敏感数据, 那么挖掘特定时间内的数据潜在信息无疑为决策支持提供更强有力的数据支 镇l 章缕论 撑。但是如果动态数据有效整合仅仅是用分布式数据库技术,那么数据库间通 信、源数据清洗、整合、数据模型基本构建、大规模数据管理、错误处理、整 合监控等等工作为数据库本身数据处理、数据管理、网络传输增加了更大的压 力。在这种情况下,数据网格随数据需求的增长而迅速发展。数据网格通常利 用数据集成的传统框架,利用网格环境的离效处理能力可以实现海量数据的有 效整合,并有效地利用已有的众多的数据库资源;同时,也可以利用数据库管理 系统高效的数据管理能力,为网格内实现数据库资源的检索,有效管理分布数 据的集成优化以及大数据的分析处理等提供强有力的支持。 1 ,2国内外研究现状和发展趋势 目静,数据网格的研究还处于起步阶段一,多数研究致力子制定的网格环境 下访问数据库的协议和中间件,如o g s a - d a i 一,o g s a w e b d b ( o g s aw e b d a t a b a s e ) ,o g s a d q p ( o g s ad i s t r i b u t e dq u e r yp r o c e s s i n g ) 等。相关的工 佟有m y g r i d ( 8 】 p o l a r 事隅,g d i s ( g r i dd a t ai n t e g r a t i o ns y s t 删 p o o s e c ( p a r a ll e lo b j e c tq u e r ys y s t e mf o re x p e n s i v ec o m p u t a t i o n s ) , c o d i m s g ( c o n f i g u r a b l ed a t ai n t e g r a t i o nm i d d l e w a r ef o rt h eg r i d ) 。, p a l a d i n ( p a t t e r n - b a s e da p p r o a c ht ol a r g e - s c a l ed y n a m i ci n f o r m a t i o n r a t i ) si e n t i f i i n t e g r a t i o nd a r t g r i ds d g ( s c i e n t i f i cd a t ag r i d ) 等。), )等。 用于数据挖掘的数据集成的网格基础架构,主要采用以下技术p 2 p ,w e b s e r v i c er e s o u r c ef r a m e w o r k ( w s r f ) ,对开发的网格中间件进行上端集成, 如g l o b u s 和o r a c l el o g 网格等。 1 p 2 p ( p e e r - t o p e e r ) p 2 p 为对等互联或点对点技术。p 2 p 技术可以让用 户直接连接到其他用户的计算机,进行文件共享与交换。同时p 2 p 在深度搜索、 分布计算、协同工作等方恧也大有用途。简单地说,p 2 p 就是一种用于不同p c 用户之间,不经过中继设备直接交换数据或服务的技术,它允许i n t e r n e t 用户 壹接使用对方的文件。每个人可以直接连接到其他用户的计算机,并进行文件 的交换,而不需要连接到服务器上再进行浏览与下载。 目前i n t e r n e t 的存储模式是“内容位于中心”,而p 2 p 技术的运用将使 i n t e r n e t 上的内容向边缘移动。这将带来以下改变: 一3 一 衷北i 也人学烦l :学位论文 i iii l l i i , l l l i l li l l l l l 一 - i i i l l = i 曼爱曼曼皇曼笪曼囊 首先,客户不再需要将文件上传到服务器,丽只需要使用p 2 p 与其他计算 机进行共享: 、 其次,使用p 2 p 技术的计算机不需要固定的i p 地址和永久的i n t e r n e t 连 接,这使得占有极大比例的拨号上网用户也可以享受p 2 p 带来的变革。 2 w e b 服务资源框架( w e bs e r v i c e s r e s o u r c ef r a m e w o r k ,w s r f ) w s r f 是网格技术目前流行的三个网格体系结构:五层沙漏结构( f i v e - l e v e l s a n d g l a s sa r c h i t e c t u r e 、开放网格服务体系结构( o p e ng r i d s e r v i c e s a r c h it e c t u r e ,o g s a ) 、w e b 服务资源框架( w e bs e r v i c e sr e s o u r c ef r a m e w o r k , w s r f ) 之一。 基于w s r f 的网格系统定义出一个通用且开放的架构,利用w e b 服务对具有 状念属性的资源进行存取,并包含描述状态属性的机制,另外也包含如何将机 制延伸至w e b 服务中的方式。 3 g l o b u st o o i k i tg l o b u st o o l k i t 是一个开放源码的软件项目,它为开 发分布式计算系统提供w e b 服务组件。它提供支持向远程资源提交作业的服务。 g l o b u st o o l k i t 不提供的是根据定义的一套策略为作业进行资源匹配的调度程 序。用户需要一个调度程序,它可以在一组资源中控制作业的执行管理。调度 程序要考虑资源属性和哥用性,并利用这些信息,根据作业需求、当前资源约 束和定义的调度策略,做出为作业匹配适当资源的智能的决定。 g l o b u st o o l k i t 与一些提供这种功能性的网格调度程序集成。这些调度程 序包括p l a t f o r ml o a ds h a r i n gf a c i l i t y ( l s f ) 、p o r t a b l eb a t c hs y s t e m ( p b s ) 和t w sl o a d l e v e l e r 。应用程序可以使用g l o b u s 的g r i dr e s o u r c ea n d a 1 l o c a t i o nm a n a g e r ( g r a m ) 服务以一种标准格式与这些调度程序通信。 4 。o r a cl el o g 玎o r a c l el o g 是专门为网格计算所开发的基础架构软件。 它的网格优势主要体现在:网格软件供应、安全及身份管理、应用程序管理及 监控、工作负载管理、系统管理等。 o r a c l e 为网格提供种综合的解决方案,以便在网格上管理信息和运行企 业应用程序。o r a c l ed a t a b a s el o g 用于管理称为数据库网格的计算网格的信 息。o r a c l ea p p l i c a t i o ns e r v e rl o g ( o r a c l e a sl o g ) 用于在称为应用服务器 网格的计算网格上运行企业应用程序。o r a c l ed a t a b a s el o g 和o r a c l e 第l 枣缝论 i i i i i i i i i l l | i i i ! u i,:i i i i | 1 i i i i i i 曼 a p p li c a t i o ns e r v e r1 0 9 都可使用o r a c l ee n t e r p r i s em a n a g e rl o g 网格控 制在网格计算环境中进行有效管理。 1 。3 本课题的主要工作和组织结构 1 3 1本课题的主要工作 本课题的研究工作主要有六大部分: 1 数据网格平台的选择和o r a c l e 网格平台的构建:对现阶段数据网格模型 进行分析比较,发现o r a c l e 本身强大的数据处理能力能够为数据分析模型的创 建,数据处理等应用提供高端的支持。更重要的是,o r a c l el o g 是专为网格设 计的数据库。利用o r a c l e1 0 9 的网格组件构建数据网格平台。 2 利用o r a c l ee n t e r p r i s em a n a g e m e n tl o gg r i dc o n t r o l 对整个网格进 行整体监控。包括网格节点的c p u 使用率,内存利用率等硬件信息,管理硬件 事件通知,作业调度的执行,以及网格整体性能的维护。 3 。在已搭建的o r a c l el o g 网格平台上构建税务数据分析系统。根据用户需 求和数据资源,对国地税比对系统的数据仓库进行设计。包括 e t l ( e x t r a c t t r a n s f o r m l o a d ) 过程设计,多维数据集设计,并利用o r a c l e w a r e h o u s eb u il d e r ,t o a d 进行e t l 过程代码的编写和数据模型的建立。 4 由予分析系统的数据来源基于动态的数据集成,数据更新效率将影响需 分析数据的时效性。本文通过设计一种分布式数据流频繁项算法,通过计算网 格环境中分布式数据流的频繁项,对逻辑层数据和多维数据集的有效部分更新。 进一步制定更新策略,更好的保证数据分析的数据质量。 5 制作报表,展示数据分析结果。 6 利用s q ls e r v e r2 0 0 5 的s q ls e r v e ra n a l y s i ss e r v i c e s ( s s a s ) 数据挖掘 组件对数据潜在信息进行分析和提取。分别进行了聚类挖掘,关联数据挖掘( 一 项集,规则,依赖关系网格) 。 客j 电力大学硕士学位论文 i i ii l li i ii i i i l l - - - _ _ _ i i i i i i i 笪曼寰曼黧 1 。3 。2 本文的组织结构 本文共分六个部分 第l 章前言:简要的介绍了数据分析的主要技术及国内外研究发展现状和发 展趋势。 第2 章用于数据挖掘的网格平台:主要介绍了数据网格和网格中的数据挖掘思 想及相关网格平台技术。 第3 章o r a c l el o g 数据网格:详细阐述了如何构建o r a c l el o g 网格平台,所 构建的o r a c l el o g 网格控制的管理平螽的主要功能和基础架构以及 o r a c l el o g 的数据集成方案。 第4 章网格环境下数据更新算法:对传统的网格数据更新方法进行分析比较, 提出利用数据挖掘技术计算频繁项的方法进行数据更新。并对频繁项和 频繁项集相关规则定义和数据频繁项相关挖掘算法进行研究。 第5 章m d f 算法:对m d f 算法进行详细的阐述和分析,并对算法的性能进行测 试。 第6 章国家地方税务比对系统设计:详细阐述了国地税比对系统数据仓库组成 设计:园地税网格信息比对系统总体设计思想框架;国地税比对税务网 格控制设计 e t l 工程设计;m d f 算法在国地税比对系统中的应用;多 维数据集的设计与实现;数据分析结果展示:数据挖掘结果展示。 6 - 第2 睾用手数爨挖撼的网掺平台 i f ! i i i i i i i l l li ! l l l l_ i i li l l l ! i i i i i i i i iii! 第2 章用于数据挖掘的网格平台 2 1 数据网格 数据网格”是基于广域网对海量、分布异构的数据资源进行管理、访闻和 共享的系统。 目前,有关数据库网格的研究和实践还处于起步阶段。典型的工作有d a i s 工作组制定的网格环境下访问数据库的协议和中间件,如o g s a d a i “。, o g s a w e b d b ( o g s aw e bd a t a b a s e ) 拍3 ,o g s a d q p ( o g s ad is t r i b u t e dq u e r y p r o c e s s i n g ) 7 3 等。相关的工作有m y g r i d 朝,p o l a r 宰嘲,g d i s ( g r i d d a t a i n t e g r a t i o ns y s t e m ),p o q s e c ( p a r a l l e lo b j e c tq u e r ys y s t e mf o re x p e n s i v e c o m p u t a t i o n s ),c o d i m s g ( c o n f i g u r a b l ed a t ai n t e g r a t i o ni i d d l e w a r ef o r t h eg r i d ),p a l a d i n ( p a t t e r n b a s e da p p r o a c ht o l a r g e s c a l ed y n a m i c t t 3 c l4 】,【1 5 】 i n f o r m a t i o ni n t e g r a t i o n ),d a r t g r i d,s d g ( s c i e n t i f i cd a t ag r i d ) 等。o g s a - d a i 能无缝地实现数据库与网格的集成,包括关系数据库和x m l 数据库 等;o g s a w e b d b 基于o g s a - d a i 提供访问与集成w e b 数据库能力;o g s a - d q p 是基于 。g s a d a i ,并面向并行处理的查询处理机制;p o l a r * 是支持特定领域的科学网 格,也是基于o g s a 体系结构,并预知数据资源:c o d i m s g 是中间件查询系统,主 要基于吞吐率动态协调查询处理节点,其数据包装为原始数据格式,而不是s 札 数据库数摄,但提供类似s q l 的查询处理机制:p a l a d i n 基于图匹配引擎实现数 据集成;d a r t g r i d 是针对中医药应用构建的数据库网格环境,实现数据库的服 务化访问和数据的分布查询,主要工作在语义层;s d g 是面向科研数据处理构建 的数据网格,其基于j d b c 实现与数据库的连接,并提供统的访问接口实现异 构数据集成。 2 。2 用于数据挖掘的网格平台 2 2 。1基于网格的数据挖掘思想 数据网格中间件对于网格中的数据管理是至关重要的。特别对于商业和科 学研究领域,数据网格中间件为数据分析、推论、知识发现提供必要的工具和 , 东北【乜力人学硕上学位论文 问题解决环境支持。面向数据挖掘的数据网格中间件可帮助用户进行数据建模、 模拟和分析科学实验。网格中的分布式数据挖掘可从地理分布的海量数据中挖 掘潜在数据信息,从而为商业智能( b i ) 提供强有力的决策支持。 在许多商业和科学研究领域,数据阙格系统对数据的整合、优化集成、数 据资源的有效管理力数据挖掘技术提供了必要的基础。在数据网格平台上,地 理上分布的数据信息通过单一的界面展现给用户,用户根据自身的业务需要对 数据进行筛选、转换、抽取、加载等工作,实现数据的有效整合,优化集成。 数据网格系统对数据的高性能处理能力主要表现在: 高性能,安全,健壮的数据传输机制 创建大型数据集副本的可编程工具集,实现对数据的优化处理 设置共享库,以存储经优化的数据集 维持更新数据集副本目录的高效机制 与传统的数据网格相比,用于数据挖掘的数据网格的特点为: 用于数据挖掘的数据网格系统集中于大规模的数据共事 数据副本的创建不仅仅是对数据集酌简单复制,焉是对数据具有更高的优化 要求,需要更强有力的专业数据处理软件的支持 在大多数的情况下,用于数据挖掘的数据网格系统多面向应用,一个应用的 业务计划框架包括底层共享库的业务设计,与共享库设计相关的数据处理机 制,面向挖掘需要的多维数据库设计,拟完成需求的算法设计等,所以数据 网格的资源共享会随应用的不同产生相应的变化 2 2 。2 用于数据挖掘的网格平台 用于数据挖掘的数据集成的网格基础架构,主要采用以下技术p 2 p ,w e b s e r v i c er e s o u r c ef r a m e w o r k ( w s r f ) ,对开发的网格中间件进行上端集成,如 g l o b u s 和o r a c l e1 0 9 网格等。下面分别以开发的实际系统说明这几种技术在网 格中的数据挖掘的应用。 2 2 2 ,1p 2 p p 2 p ( p e e r t o p e e r ) 框架结构的典型潮格溯系统采用多 e h o r d ( 鹾醢圭专i c h o r d ) 网格体系结构,采用基于o g s a - d a i ( o p e ng r i ds e r v i c e s 第2 常用于数据挖掘的网格平台 曼缀i i i i i i 一一h i l l i i i i i i i ,i i v ! ! i 曼 a r c h i t e c t u r e - d a t aa c c e s sa n di n t e g r a t i o n ) 规范。实现数据资源的分布存储、 查询处理和动态数据集成。目的是在网格环境下,借用网格的高效处理能力, 为分布、自治、异构的数据库资源的有效管理、动态数据集成和分析处理等提 供一个良好的使能环境,透明地为用户按需提供服务。p 2 p ( p e e r - t o - p e e r ) 框架 结构的数据网格系统采用如下主要思想:采用面向服务思想,将数据库资源包 装为g r i d 服务,并注册子元数据仓库( m e t a d a t ar e g i s t r y ) 中方便异构数据资 源存取;采用p 2 p 体系结构,基于j x t a ( j u x t a p o s e ) 构建m u l t i c h o r d 框架结构; 充分利用网格内的分布资源,提高网格的效率;在p 2 p 框架下,基于领域本体 知识,分领域管理数据资源,提高资源发现效率。采用副本管理策略增强网格 的可靠性和资源查询效率;基于分布的数据挖掘策略,提高数据分析与处理的 效率。 图2 1m u l t i c h o r d 结构示意i 蛰t 4 1 氇e 堍堍 鑫m u m g n 一珏一n 一 黜画渊 东北i u 力人学硕l :学位论文 曼鼎鬯曼皇曼差舅! 曼燃曼曼曼燃皇量曼烹鬯曼_ ii 一i i 寰1 1 1 1 i i i 粤曼 2 2 。2 2w e bs e r v j c er e s o u r c ef r a m e w o r k ( w s r f )w s r f 采用了与网格服务 完全不同的定义:资源是有状态的,。服务是无状态的。为了充分兼容现有的w e b 服务,w s r f 使朋w s d l1 1 定义o g s i 中的各项能力,避免对扩展工具的要求, 原有的网格服务已经演变成了w e b 服务和资源文档两部分。w s r f 推出的冒的在 予,定义出一个运用且开放的架构,利用w e b 服务对具有状态属性的资源进行 存取,并包含描述状态属性的机制,另外也包含如何将机制延伸至w e b 服务中 的方式。 w s r f 是一个服务资源的框架,是五个技术规范的集合。这些规范定义了以 下方法: w e b 服务资源可以与销毁请求圊步地或者通过提供基于时阗的折构机制来销 毁,丽且指定的资源特性可以被用来检查和检测w e b 服务资源的生存期 w e b 服务资源的类型定义可以幽w e b 服务的接口描述和x m l 资源特性文档来 组成,并且可以通过w e b 服务消息交换来查询和更改w e b 服务资源的状态 如果w e b 服务内部所包含的寻址或者策略信息交得无效或者过时,w e b 服务 端点引用( w e b 服务寻址) 可以被更新 可以定义异构的透过引用方式结合在一起的w e b 服务集会,不管这些服务是 否属于w e b 服务资源 通过使用用于基本错误的x m ls c h e m a 类型以及扩展这个基本错误类型的规 则应用到w e b 服务中,使得w e b 服务中的错误报告可以更加标准化 u s e r l s t o m g er t o d oc o m p u t i n gn o d e 图2 - 2 远程w e bs e r v i c e 熬数搌挖掘执行流程 第2 章用于数据挖掘的网格甲台 蔓舅皇曼曼嬲蔓曼寰楚曼燮i i l l l l l l i l l l l i l l l l i i | 曼皇曼爱曼曼黑皇曼蔓鼎皇曼曼燃曼曼鼍! 曼 图2 2 以w e k a 4 w s 晗朝为例,说明以w s r f 为基础框架的数据挖掘网格系统的最 简模式工作流程。假设w e k a 4 w s 系统正在进行的数据挖掘工作为聚类。 1 资源仓f j 建用户节点调用c r e a t e r e s o u r c e 操作,为所需应用创建个新 的w s - r e s o u r c e 。相应的创建信息存储为资源属性。“c l u s t e r i n gm o d e l 模块 用以存储聚类计算的结果。轷s 返回所创建资源的e p r ( e n d p o i n tr e f e r e n c e ) 。 e p r 是一个w e b 资源的唯一标识,用以区另j j w e b 服务中的各w e b 资源。用户端请求 通过e p r 搜寻需索资源。 2 资源属性变更通告在调用数据挖掘算法的过程中,会产生一系列中间 值,这些值存储在网格资源相应的属性中。用户节点调用资源属性变更通告n s ( t i f i e a t i o ns u b s e r i p t 主o n ) ,用以对资源属性进行更新。默认情况下,无 论算法产生变更与否,资源属性都要根据n s 对资源属性进行更改。 3 任务提交用户节点调用聚类算法对数据进行聚类分析。 4 ,数据加载w s 按照数据资源提供的u r l 下载数据集。数据载入请求面向 数据节点的f t ps e r v e r 。有时需要不同的协议,如h t t p ,g r i d f t p 等。 5 数据挖掘数据集载入之后,c o m p u t i n gn o d e 调焉数据挖掘算法对数据 集进行分李斤。系统按照第一步创建的餮s r e s o u r c e 完成全部的数据挖掘过程。 算法执行结果存储在c l u s t e r i n gm o d e l 的结果属性中。 6 计算结果变更通知当c l u s t e r i n gm o d e l 的结果属性产生变更, c o m p u t i n gn o d e 默认将变更值传送给c m 。这一机制使c o m p u t i n gn o d e 和c m 的 计算结果保持一致。 7 :资源销毁销毁第一步创建的w s - r e s o u r c e ,节省系统开销。 2 。2 。2 。3 对已如现的网格平台进行上端集成m a r i oc a n n a t a r o ,d o m e n i c o t a li a ,p a o l ot r u n f i o 等人开发的k n o w l e d g eg r i d 啪1 有效的利用了g l o b u s 的网格基础架构,进行网格环境下大规模数据整合,以进行科学研究、创建模 拟工业生产过程和组织模型、挖掘商业潜在信息等。 东北i 乜力人学硕11 学位论文 蔓鼍燃曼曼量煦皇曼曼燃曼曼曼爱麓皇曼篡篁曼曼鼍篡曼曼曼麓蔓曼曼嬲v i i u i i i ii ii i 燃曼曼曼姥曼曼量嬲皇皇曼冀量 娶f 1 2 - 3k n o w l e d g eg r i d 体系结构 k n o w l e d g eg r i d 采用两层组织架构: k - g r i d 中心层( t h ec o r ek - g r i dl a y e r ) k - g r i d 用户层( t h ek - g r i dl a y e r ) k - g r i d 中心层控制糟以产生网格服务的底层服务设置,k - g r i d s 户层负责 在k n o w l e d g eg r i d 土描述、开发和执行知识发现计算。k n o w l e d g eg r i d 的两层 组织架构以g l o b u s 为基础,在g l o b u s 节点的服务上开发数据挖掘计算。 k - g r i d 中心层包含以下两个服务: 数据挖掘目录服务( k n o w l e d g ed i r e c t o r ys e r v i c e ,k d s ) 资源分配和执行管理服务( r e s o u r c ea l l o c a t i o na n de x e c u t i o nm a n a g e m e n t s e r v ic e ,r a e m s ) k - g r i d 用户层包含以下服务: 数据存取服务( d a t aa c c e s ss e r v i c e ,d a s ) 数据挖掘工具和算法存取服务( t o o l sa n da l g o r i t h m sa c c e s ss e r v i c e , t 从s ) 执行计划管理服务( e x e c u ti o np l a nm a n a g e m e n ts e r v i c e ,e 剐s ) 挖掘结果前端展现服务( r e s u l t sp r e s e n t a t i o ns e r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论