(计算机应用技术专业论文)基于本体的多源异构安全数据聚合.pdf_第1页
(计算机应用技术专业论文)基于本体的多源异构安全数据聚合.pdf_第2页
(计算机应用技术专业论文)基于本体的多源异构安全数据聚合.pdf_第3页
(计算机应用技术专业论文)基于本体的多源异构安全数据聚合.pdf_第4页
(计算机应用技术专业论文)基于本体的多源异构安全数据聚合.pdf_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

c l a s s i f i e di n d e x : u d c : adiss e r t a tio nf o rt h ed e g r e eo fd e n g m u l t i s o u r c eh e t e r o g e n e o u ss e c u r i t yd a t a a g g r e g a t i o n ba s e do no n t o l o g y c a n di d a t e :m e n gy u l o n g s u p e r v is o r :p r o f y i ng u i s h e n g a c a d e m i cd e g r e ea p p i i e df o r :d o c t o ro fe n g i n e e r i n g s p e cia lit y :c o m p u t e ra p p lie dt e c h n o l o g y d a t eo fs u b m i s s i o n :f e b r u a r y ,2 0 1 0 d a t eo fo r a l e x a m i n a ti o n :a p r il ,2 0 1 0 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y l 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 1 一 、 作者( 签字) :砬暂舻 日期:和年多月:7 日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 准授予学位后即可口在授予学位1 2 个月后 口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :琶字 日期:_ 唧d 年形月z 7 日 导师( 签字) 加,年髟月 卅叫r 基于本体的多源异构安全数据聚合 摘要 安全数据是描述与安全相关的数据,信息领域存在大量分布的、彼此异 构的安全数据,称为多源异构安全数据。随着网络依赖程度的提高,信息共 享和数据交换的范围不断扩大,具有语义分析和处理功能的数据聚合已经成 为数据分析处理的有效方法和手段。如何在网络安全态势感知中有效地将携 带敏感信息的安全数据进行结构、语法和语义的聚合,从海量的多源异构安 全数据中提炼出简洁、准确、可信以及语义明确的安全态势影响要素,是一 个新的课题和挑战。 网络安全态势感知是目前网络安全领域的研究热点之一,是实现网络安 全监控和评估的一种新技术。本文以网络安全态势感知为背景,以本体等相 关理论研究为基础,以影响网络安全态势的要素为处理对象,通过对贝叶斯 网络分类、安全策略等方法和策略进行改进,以其与本体描述、本体构建和 本体推理的结合为手段,针对网络安全态势感知中多源异构安全数据聚合的 相关关键技术进行了研究,主要研究工作如下。 网络安全态势感知中数据聚合框架是开展该方向研究的前提和基础。首 先制定基于本体的框架构建规则和构建方法,提出一个面向网络态势感知的 基于本体的多源异构安全数据聚合框架,同时给出框架的完整描述,然后并 利用p e p a 形式化语言对该框架进行分析。该框架为基于本体的多源异构安 全数据聚合提供了整体指导思路。 为进行网络安全态势感知中安全数据聚合框架及安全数据分类中的本体 表示,对现有本体描述语言进行分析。提出一种面向聚合的基于本体的表示 和推理方法。给出该方法的基本形式,对具有语义关系的分类数据建立相应 的本体行为特征轮廓描述,通过层次划分和节点聚合有效表示了安全态势要 素的x m l 等结构化、半结构化文档的语义。在一个网络安全态势感知实验 中进行了验证,实验结果表明,这种语义表示方法能有效提升网络安全态势 感知中数据分析能力,为准确进行态势评估提供参考。 针对网络安全态势要素分层、多源异构的特点,分析目前已有分类方法 的不足,引入贝叶斯网络分类器提出一个面向聚合的具有语义特征关联的贝 叶斯网络分类方法。详细定义了网络安全态势感知中安全数据聚合框架内的 哈尔滨t 程大学博十学位论文 处理对象,给出对象语义特征提取和网络节点变迁规则、改进面向聚合的i j l l 练样本选择和参数学习。实验结果表明,提出的方法适合面向聚合的多源异 构安全数据的语义分类。 针对多源异构数据进行聚合过程中,主体进程常常同时处理具有多种安 全等级客体的特殊性及聚合框架自身安全保障的问题,现有安全策略不能灵 活处理,导致聚合过程无法完全评估影响网络安全态势的要素,提出一种面 向网络安全态势感知中数据聚合的扩展权值多级安全策略。论文给出该策略 的完整定义和访问规则,将其与本体表示相结合加入聚合框架内,在保障聚 合过程安全同时实现了更灵活的主体访问机制。实验验证在基本不影响系统 性能基础上提高了安全态势评估效果。 关键词:网络安全态势感知;本体;多源异构安全数据;数据聚合;安全策 略 产 o 基于本体的多源异构安全数据聚合 a b s t r a c t s e c u r i t y d a t ad e s c r i b e sd a t a s e c u r i t y - r e l a t e d l o t s o fd i s t r i b u t e da n d h e t e r o g e n e o u ss e c u r i t yd a t aw i t he a c ho t h e ri si ne x i s t e n c ei ni n f o r m a t i o nd o m a i n w h i c hi sk n o w n 舔m u l t i s o u r c eh e t e r o g e n e o u s s e c u r i t y d a t a w i t ht h e i m p r o v e m e n to fn e t w o r kd e p e n d e n c ea n dt h ee x p a n s i o no fi n f o r m a t i o ns h a r e sa n d d a t ac h a n g e s ,i ti s b e c o m i n gak i n do fi m p o r t a n tm e t h o da n dm e a n sf o rd a t a a n a l y z i n ga n dp r o c e s s i n gt o u s ed a t aa g g r e g a t i o nw i t hs e m a n t i c a n a l y s i sa n d p r o c e s s i n g s o ,h o wt h es e c u r i t yd a t aw i t hs e n s i t i v ei n f o r m a t i o nt ob ea g g r e g a t e d i ns t r u c t u r e ,s y n t a xa n ds e m a n t i c si nn e t w o r ks e c u r i t ys i t u a t i o na w a r e n e s sa n d h o wt oa b s t r a c tc o m p a c t ,a c c u r a t e ,t r u s t e ds e c u r i t ya w a r e n e s sf a c t o r sw i t hc l e a r s e m a n t i c si san e ws u b j e c ta n dc h a l l e n g e n e t w o r ks e c u r i t ys i t u a t i o na w a r e n e s si so n eo fr e s e a r c hh o t s p o t si nd o m a i n o fn e t w o r ks e c u r i t ya tp r e s e n t i ti sn e wt e c h n o l o g yt or e a l i z en e t w o r ks e c u r i t y s u p e r v i s i o na n de v a l u a t i o n t h eb a c k g r o u n do ft h i st h e s i s i sn e t w o r ks e c u r i t y s i t u a t i o na w a r e n e s s i t st h e o r yb a s i si so n t o l o g ye t c t h ep r o c e s s i n go b j e c t sa r e f a c t o r sw h i c ha f f e c tn e t w o r ks e c u r i t ya w a r e n e s s t h eb a y e sn e t w o r kc l a s s i f i c a t i o n a n ds e c u r i t yp o l i c ye t c i si m p r o v e d b yt h em e a n so fo n t o l o g yd e s c r i p t i o n , o n t o l o g yc o n s t r u c t i o na n do n t o l o g yr e a s o n i n g ,t h er e l a t e dt e c h n o l o g i e sa i m e da t m u l t i s o u r c eh e t e r o g e n e o u ss e c u r i t yd a t aa g g r e g a t i o na r er e s e a r c h e d t h em a i n c o n t e n t sa r eo r g a n i z e da sf o l l o w s d a t aa g g r e g a t i o nf r a m e w o r ki nn e t w o r ks e c u r i t ys i t u a t i o na w a r e n e s si sb a s i s a n dp r e m i s e so fr e s e a r c h i n g t h ef r a m e w o r kc o n s t r u c t i o nr u l e sa n dm e t h o d sa r e e s t a b l i s h e df i r s am u l t i s o u r c e h e t e r o g e n e o u ss e c u r i t yd a t aa g g r e g a t i o n f r a m e w o r kb a s e do no n t o l o g yi sp r o p o s e d t h ef r a m e w o r ki sd e s c r i b e df u l l ya n d b ea n a l y z e db yu s i n gp e p af o r m a l i z a t i o nl a n g u a g e i t p r o v i d e sai n t e g r a t e d m e t h o df o rm u l t i s o u r c eh e t e r o g e n e o u s s e c u r i t y d a t a a g g r e g a t i o nb a s e do n o n t o l o g y a i m e da th i e r a r c h i c a lm u l t i s o u r c eh e t e r o g e n e o u sf e a t u r e so fn e t w o r k s e c u r i t ys i t u a t i o n ,t h es h o r t a g e so fc u r r e n tc l a s s i f i c a t i o nm e t h o d sa r ea n a l y z e d a 哈尔滨工程大学博士学位论文 b a y e sn e t w o r kc l a s s i f i c a t i o nm e t h o df a c e dw i t ha g g r e g a t i o nw i t h s e m a n t i cf e a t u r e r e l a t i o n si sp r o p o s e d t h ep r o c e s s i n go b j e c t si nf r a m e w o r ko fs e c u r i t yd a t a a g g r e g a t i o no fn e t w o r ks e c u r i t ys i t u a t i o na w a r e n e s sa r ed e f i n e dd e t a i l e d l y t h e r u l e so fo b j e c ts e m a n t i cf e a t u r ea b s t r a c t i o na n dn e t w o r kn o d ec h a n g ea r ep r o v i d e d t h ec h o o s i n go ft r a i n i n gs a m p l e sa n dp a r a m e t e r sl e a r n i n gf a c e dw i t ha g g r e g a t i o n i si m p r o v e d t h ee x p e r i m e n t a lr e s u l ts h o w st h a tt h ep r o p o s e dm e t h o di sa d a p t e d f o rs e m a n t i cc l a s s i f i c a t i o nf a c e dw i t hm u l t i - s o u r c eh e t e r o g e n e o u ss e c u r i t yd a t a a g g r e g a t i o n i no r d e rt od e s c r i b eo n t o l o g yi nf r a m e w o r ko fs e c u r i t yd a t aa g g r e g a t i o no f n e t w o r ks e c u r i t ys i t u a t i o na w a r e n e s sa n ds e c u r i t yd a t ac l a s s i f i c a t i o n t h ec u r r e n t o n t o l o g yd e s c r i p t i o nl a n g u a g e sa r ea n a l y z e da n dd e s c r i p t i o nm e t h o db a s e do n o n t o l o g yf a c e dw i t ha g g r e g a t i o n t h eb a s i c f o r m sa r eg i v e na n do n t o l o g y b e h a v i o rf e a t u r ep r o f i l ed e s c r i p t i o ni ss e tf o rc l a s s i f i c a t i o nd a t aw i t hs e m a n t i c r e l a t i o n i ts h o w se f f e c t i v e l ys t r u c t u r e da n dh a l fs t r u c t u r e dd o c u m e n ts e m a n t i c so f x m le t c o ff a c t o r so fs e c u r i t ys i t u a t i o na w a r e n e s sb yh i e r a r c h i c a lp a r t i t i o na n d 、n o d ea g g r e g a t i o n t 1 l ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h e s e m a n t i cd e s c r i p t i o n m e t h o dc a ni m p r o v ep o w e re f f e c t i v e l yi na n a l y z i n gd a t ai nn e t w o r ks e c u r i t y s i t u a t i o na w a r e n e s sa n dp r o v i d er e f e r e n c ef o re v a l u a t i n gs i t u a t i o na c c u r a t e l y i nt h ep r o c e s so fm u l t i s o u r c eh e t e r o g e n e o u ss e c u r i t yd a t a , t h ep r o b l e m s e x i s ti nw h e nm a i np r o c e s so f t e np r o c e s s e sm u l t i g r a d eo b j e c t sa n di t s e l fs e c u r i t y g u a r a n t e eo fa g g r e g a t i o nf r a m e w o r kc a l ln o ts o l v e dn e a t l yb yc u r r e n ts e c u r i t y s t r a t e g y t h ea g g r e g a t i o np r o c e s sc a nn o te v a l u a t ef a c t o r sf u l l ya f f e c t e db y n e t w o r ks e c u r i t ys i t u a t i o n aw e i g h t v a l u e - e x t e n d e dm u l t i l a y e rs e c u r i t ys t r a t e g y f a c e dw i t hd a t aa g g r e g a t i o no fn e t w o r ks e c u r i t ys i t u a t i o na w a r e n e s si sp r o p o s e d t h ei n t e g r a t e dd e f i n i t i o na n da c c e s sr u l e sa r eg i v e n i ti sa d d e di n t of r a m e w o r kb y a s s o c i a t i n go n t o l o g yd e s c r i p t i o n i tr e a l i z i n gm o r ef l e x i b l em a i nb o d ya c c e s s m e c h a n i s ma tt h es a m et i m ew h e np r o t e c t sa g g r e g a t i o ns a f e t y t h ee x p e r i m e n t s h o w st h a tb e t t e rs e c u r i t ys i t u a t i o ne v a l u a t i o ni sa c h i e v e d k e yw o r d s :n e t w o r ks e c u r i t ys i t u a t i o na w a r e n e s s ;o n t o l o l g y ;m u l t i s o u r c e h e t e r o g e n e o u ss e c u r i t yd a t a ;d a t aa g g r e g a t i o n ;s e c u r i t yp o l i c y 卢 基于本体的多源异构安全数据聚合 目录 第1 章绪论l 1 1 课题背景及意义1 1 2 国内外研究现状3 1 2 1 数据聚合的产生和发展3 1 2 2 网络安全态势感知中的多源异构安全数据聚合8 1 2 3 本体研究现状9 1 3 存在问题和发展趋势15 1 3 1 存在问题15 1 3 2 发展趋势16 1 4 论文主要内容和组织结构1 6 第2 章基于本体的多源异构安全数据聚合框架1 9 2 1 问题的提出1 1 9 2 2 框架的构造原则和过程2 0 2 2 1 构造原则2 0 2 2 2 构造过程2 l 2 3 基于本体的多源异构安全数据聚合框架2 l 2 3 1 框架描述2 3 2 3 2 框架的扩展性2 4 2 3 3 本体服务框架2 5 2 4 形式化描述2 8 2 4 1 基于p e p a 的聚合框架描述2 8 2 4 2 框架模型的分析3 0 2 5 实验与结果分析3 2 2 5 1 内部扩张能力实验3 2 2 5 2 外部扩张能力实验3 3 哈尔滨工程大学博士学位论文 2 6 本章小结3 4 第3 章面向聚合的本体表示和推理方法3 5 3 1 问题的提出3 5 3 2 相关理论分析3 6 3 2 1 本体、概念与领域的关系3 6 3 2 2 描述逻辑基本形式3 7 3 2 3 本体描述语言4 0 3 3 面向聚合的本体表示和推理方法4 0 3 3 1 基本形式4 l 3 3 2 本体表示层次与节点聚合4 2 3 3 3 对象关系4 4 3 3 4 本体描述过程4 5 3 3 5 描述模板。5 0 3 4 仿真实验与结果分析5 3 3 4 1 实验环境5 3 3 4 2 实验结果和分析5 4 3 5 本章小结5 7 第4 章面向聚合的具有语义特征关联的贝叶斯网络分类方法5 8 4 1 问题的提出5 8 4 2 相关理论研究5 9 4 2 1 朴素贝叶斯分类器特点分析5 9 4 2 2 贝叶斯网络分类器及其构造过程6 1 4 3 面向聚合的语义特征关联贝叶斯网络分类方法6 2 4 3 1 基本思想6 2 4 3 2 处理对象及其集合6 2 4 3 3 训练样本选择6 3 4 3 4 语义特征提取及关联6 4 4 3 5 网络节点变迁。6 6 一 广 基于本体的多源异构安全数据聚合 4 3 6 参数学习6 7 4 3 7s b n 推理7 0 4 4 仿真实验与结果分析7 l 4 4 1 实验环境和样本选择7 l 4 4 2 实验结果和分析7 2 4 5 本章小结7 4 第5 章网络安全态势感知中数据聚合的安全策略7 6 5 1 问题的提出7 6 5 2 相关安全策略分析7 7 5 2 1 典型安全策略模型7 7 5 2 2 多级安全策略分析8 0 5 3 面向聚合的扩展权值多级安全策略j 。8 1 5 3 1 策略思想8 2 5 3 2 定义和规则8 2 5 3 3 安全策略模型。8 4 5 3 4 策略分析8 6 5 4 实验与结果分析8 8 5 4 1 实验环境8 8 5 4 2 实验结果和分析8 9 5 5 本章小结9 1 结论9 2 参考文献9 4 攻读博士学位期间发表的论文和取得的科研成果1 0 6 致谢1 0 7 个人简历10 8 , 第1 章绪论 1 1 课题背景及意义 第1 章绪论 随着计算机技术的快速发展、网络的广泛应用,各部门信息化工作的进 一步深入,几乎不可避免的,在国家部门和现代企业中使用不同的操作系统、 不同的网络系统以及不同的数据管理系统来存储和管理其重要数据【啦 3 ,4 】。与 此同时,由于目前黑客技术日益公开化,职业化,各种攻击日益频繁,病毒 日益泛滥,重大网络安全事件日益增加,用户的防范意识也迅速提高,安全 服务已经逐渐引起重视。2 0 0 8 年,公安部调查显示,6 2 7 的被调查单位发 生过网络安全事件,其中网络入侵事件占有很大的比重p j 。在传统网络安全 技术逐渐无法满足人们的安全需求的背景下,网络安全态势感知研究应运而 生。网络安全态势感知是建立在网络安全事件检测基础之上的,对能够引起 网络安全态势发生变化要素的提取,通过对当前态势的评估以及未来安全态 势的预测的一种网络安全总体状态的综合评价,其采用的评价指标是一个综 合多种因素的有机体系。其中,态势可以理解为是一种状态或是一种趋势; 引起网络安全态势发生变化的要素可以理解为那些携带敏感信息的、描述与 安全相关信息的数据,称为安全数据。在网络安全态势感知中,安全数据的 主要特征体现为生成节点多源分布、存储、传输和处理方式异构、时间序列 异构、结构异构、语法异构和语义异构等,同时,其在承载与安全相关信息 的同时,自身也具有一定的机密性和完整性需求。网络安全态势感知平台可 利用这些安全数据和相应服务机制制定安全解决方案及进行安全态势评估。 在网络安全态势感知中,网络日志是一种典型的多源异构安全数据。这 些网络日志在生成节点、生成时间、生成结构以及承载语义上的不同形成了 大量的“多源异构”现象。其多源性体现在日志生成方式、存放方式和处理 方式的多样化,即数据源分布在分散的,彼此可以通信的多个节点上,如布 置在交换机、服务器上的日志传感器所采集到的日志:其异构性主要体现为 系统异构、结构异构、生成时间异构、语法异构和语义异构,系统异构和结 哈尔滨工程大学博士学位论文 构异构表现为操作系统、硬件、数据模型的不同,语法异构一般指源数据和 目的数据之间命名规则及数据类型存在不同,其中语义异构会导致不同数据 的语义区分问题。系统是动态变化的、具有活性的,其活性越积极则数据的 语义匹配越困难。这些海量的多源异构的安全数据使得安全信息共享和安全 业务协同处理出现了严重的阻塞,对系统本身的安全检测、分析、度量、预 防和处理带来极大时间、空间复杂度。另一方面,就网络日志本身而言,其 除具有描述安全的特性外,一般均拥有一定的密级,可以在相应的安全信息 流中进行流通,所以,网络安全态势感知中处理安全数据同时需要选取适合 的安全策略进行保障。但是网络安全态势感知系统自身安全性的研究在以前 的研究中并未受到重视【6 】。从用户角度来看,其更加需要在优质网络安全产 品基础之上的完整的、直观的以及明确的安全解决方案。所以,如何在浩如 烟海的“安全数据 中清晰、明确地检测和还原出安全事件并加以分析、解 决和反馈是目前网络安全态势感知的研究热点之一。在这一点上,安全事件 检测与安全态势评估问题可规约为网络安全态势感知中的多源异构安全数据 聚合问题,这里,数据聚合是指通过同时聚集和分析多个数据源的多种不同 类型的数据来取得信息的全貌,数据聚合要考虑数据上下文关系。 目前已有的安全解决方案大多是将大量的安全数据进行各种方式数据集 成,然后通过数据过滤等手段总结安全事件,没有注重原始安全数据本身所 固有的语义特征。因此,无法解决异构安全数据的语义异构分析并以此来还 原安全事件的问题【7 , 8 , 9 】。 数据聚合是指通过同时聚集和分析多个数据源的多种不同类型的数据来 取得信息的全貌。多源异构安全数据的语义异构使得其聚合过程需要引入本 体的支持。本体具有良好的概念层次结构和对逻辑推理的支持,是客观存在 的一个系统的解释或说明,在知识检索中有广泛应用。本体关心的是客观现 实的抽象本质,是一种用来说明事物内在含义( 即语义) 的逻辑理论,因此, 本体可以用来承载事物最原子的语义。不同系统的字段往往不能一一对应, 相似的字段定义也经常不完全一致,而且数据的组织方式( 信息模型) 也可 能不同,所以要实现不同数据库之间的映射往往很困难。而利用o w l 的 r d f s :s u b c l a s s o f , o w l :s a m c c l a s s a s ,r d f s :s u b p r o p e r t y o f , o w l :s a m e p r o p e r t ya s 等, 可以实现很复杂的语义映射。这些特点使得利用本体进行多源异构安全数据 2 卜 第1 章绪论 聚合成为网络安全态势感知的一个重要研究方向。在上述需求背景和技术背 景下,本文尝试以网络安全态势感知为切入点,从基于本体的多源异构安全 数据聚合中相关技术问题出发,借鉴本体理论对多源异构安全数据聚合进行 本体建模和本体描述,对原始的多源异构安全数据逐步进行数据语义分类、 本体描述和逻辑推理,以期能够准确、真实地检测出隐藏在海量多源异构安 全数据中的网络安全事件。 本课题来源于国家8 6 3 科研项目“基于自律计算的分布式系统自恢复性 关键技术研究( 项目编号:2 0 0 7 a a 0 1 2 4 0 1 ) ”和国防十一五预研项目“x x 网络安全态势感知系统信息获取技术( 项目编号:5 1 3 x x 0 2 ) ”。主要解决网 络安全态势感知中基于本体的多源异构安全数据聚合框架及与其相关的若干 关键问题。通过本课题的研究,首先可以为改变传统数据集成思想和方法提 供一定参考,推进本体构建等相关理论的研究。其次,本文研究内容对网络 安全态势感知中安全数据聚合框架、语义分类、本体描述和推理以及制定安 全策略等研究有一定的意义。第三,本文对网络日志聚合的研究为解决网络 安全态势感知提供了强有力的分析手段,可以高效组织和整合安全数据资源, 提高安全数据分析处理效率,为迅速、明确地进行网络安全态势感知评估提 供一定理论研究基础。 1 2 国内外研究现状 为解决多源异构数据处理问题,早期人们提出了数据集成技术并展开了 广泛研究,但是没有解决数据的语义异构问题。例如x m l 可以将不同来源 的异构数据结合在一起,为解决多源异构数据的聚合提供了机会,因此x m l 迅速成为描述异构文档的标准语言并得到广泛应用。在十九世纪末二十世纪 初,研究人员尝试将人工智能领域的本体引入到异构数据的聚合中用以解决 数据语义异构问题。 1 2 1 数据聚合的产生和发展 对多源异构数据的处理,一般可采用数据集成和数据聚合的方法,常见 的数据集成方法主要有联邦数据库法、数据仓库法、中介器法。数据聚合方 3 哈尔滨工程大学博士学位论文 法是主要基于语义数据模型的数据分析和处理方法,如骨架法掣1 0 】【1 1 】【1 2 】。 1 2 1 1 传统的多源异构数据集成 美国国家科学基金会( n s f ) 在上世纪9 0 年代举行了未来数据库讨论会 ( w o r k s h o po f f u t u r ed a t a b a s er e s e a r c h ) 。该会议确立“构建异构、自治数据 库中支持可控的信息共享与交换环境”为未来数据库研究的关键问题。异构 数据集成不仅仅是简单的数据库模式集成或者建立一个全局数据库视图,而 是让彼此异构、自治的信息系统能跨平台的进行信息协作【1 3 , 1 4 】。数据集成的 目的是将相互关联的分布式异构数据源集成到一起,使得用户能够以透明的 方式访问这些数据源【1 5 】。图1 1 显示了传统数据集成的典型模式。 目前,国内外许多行业组织己采用公共的建模或数据交换工具( 如u m l 和x m l ) 开展领域业务对象的标准化工作,他们建造针对特定领域复杂信息 资源的规范及标准,即元模型【l6 1 。由于各个标准组织的发展历史不同,关注 的业务领域不同,并且采用的技术也不尽相同。所以,各个标准化组织在进 行元模型标准化的时候都只针对其所属范围,采取一种特定的方式去制定自 己的标准。这样,在不同组织所定义的元模型之间,仍然存在概念定义不同 和采用的技术不同的双重分歧【ll 博j 。 在一个典型的数据集成系统中,最主要的任务就是在全局模式下的异构数据 源间建立映射,这样的映射要适当考虑到数据集成系统的标准化【l9 1 。数据集 成模式形式化框架可描述如下:一个数据集成系统,是一个三元组( g ,j ,朋) , 其中:g 是全局模式,j 是源数据, t 是g 和s 之间的映射,肌存在三种不同 的映射方法:以全局模式为中心的方法、以数据源为中心的方法以及二者结 合的方法【2 0 , 2 1 , 2 2 ,2 3 1 。 1 联邦数据库法 联邦数据库的数据源相互独立,但通过数据源之间的数据交换格式进行 一一映射,一个数据源可以访问任何其他数据源提供的信息。好象所有数据 都位于一个数据库中,尽管事实上数据可能存储在异构的数据源集合中【2 4 1 。 联邦数据库方法的优点是容易实现,而缺点则是工作量极大,扩展性差。联 邦数据库法体系结构如图1 1 所示。 4 卜 第1 章绪论 图1 1 联邦数据库法体系结构 f i g 1 1a r c h i t e c t u r eo ff e d e r a t e dd a t a b a s e s 2 数据仓库法 数据仓库法将来自几个数据源的数据副本按照一个集中、统一的视图要 求进行预处理和转换,以符合数据仓库的模式并存储到数据仓库中。数据仓 库的出现并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管 理系统来管理的。数据仓库是面向主题设计的,存储的一般是历史数据。数 据仓库在设计的时候一般有意引入冗余,采用反范式的方式来设计。其设计 目的主要是进行数据分析,所以数据仓库并不是严格意义上的数据集成。数 据仓库方法的缺点是当数据源中的数据发生变化时,数据仓库中的数据也要 做相应的修改,因此会造成数据更新不及时以及数据的重复存储。数据仓库 法体系结构如图1 2 所示。 图1 2 数据仓库法体系结构 f i g 1 2a r c h i t e c t u r eo f d a t aw a r e h o u s e 哈尔滨工程大学博士学何论文 3 中介器法 中介器法集成异构数据源的方式与数据仓库的方式相似,但中介器法使 用与数据仓库法完全不同的结构。中介器法中,数据仍然保存在各异构数据 源上,集成系统仅提供一个虚拟的集成视图和对该视图的查询的处理机制。 该种方法的缺点是没有实现真正意义上的数据集成,仅仅提供了一个数据封 装,如果用户提出一个查询,必须通过中介器在源数据源中得到查询结果, 并使用源数据源形式对查询进行回答。中介器法体系结构如图1 3 所示。 图1 3 中介器法体系结构 f i g 1 3a r c h i t e c t u r eo fm e d i a t o r 1 2 1 2 基于x m l 的多源异构数据聚合 传统的关系型数据仍是目前最为成熟的数据表示方法之一,其主要优点 是:实体间联系固定,具有良好的完整性支持;描述自然、直观、容易理解; 建立在严格的数学概念的基础上,概念单一,实体与实体间的联系都用关系 表示,故其数据结构简单、清晰;存取路径对用户透明,有更高的数据独立 性和更好的安全保密性。缺点是对数据操作限制比较多,而且随着应用环境 的扩大,数据库的结构越来越复杂,不利于用户掌握;其d d l ,d m l 语言 复杂,用户不容易使用:无法解决语义异构。除传统的关系型数据之外,半 结构化数据( s e m i s t m c t e dd a t a ) 也是一种重要的数据表示方法,半结构化数 据是指缺乏严格模式结构的数据,通常可以用文档树来描述。作为表示半结 6 卜 第l 章绪论 构化数据的标准之一,x m l 被广泛应用于异构数据交换【2 让6 i 。同时,围绕 x m l 的相关研究也逐渐成熟。2 0 0 0 年,基于x m l 的异构数据集成中间件研 究受到美国政府o p a l 计划支持【27 1 ,x m l 具有平台独立性,所以x m l 可以 用来解决多源异构数据中的互操作问题,其作为数据传输的一种中介格式具 有良好的自描述性和扩展性,可以用来同时表示多种类型的数据,同时x m l s c h e m a 可用来进行数据模式之间的映射,将异构数据源的类型映射为x m l 数据类型,因此x m l 技术可以比较有效地解决多源异构数据聚合问题。在 x m l 的数据聚合研究中,比较著名的有i b m 的x p e r a n t o 2 8 1 、a t & t 的 s i l k r o u t e t 2 9 】和华盛顿大学的t u k w i l a t 3 0 】。目前x m l 主要应用于电子商务中。 虽然x m l 作为一种有效的异构数据交换格式得到了广泛应用并逐渐为 人们所接受,但x m l 无法解决数据的语义异构问题。首先,x m l 中存在的 很多模式级规范,如x m ls c h e m a 或d t d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论