优秀硕士论文参考】数据网格环境下的元数据分发技术研究_第1页
优秀硕士论文参考】数据网格环境下的元数据分发技术研究_第2页
优秀硕士论文参考】数据网格环境下的元数据分发技术研究_第3页
优秀硕士论文参考】数据网格环境下的元数据分发技术研究_第4页
优秀硕士论文参考】数据网格环境下的元数据分发技术研究_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2005612100175公开分 类 号 _ 学号 _10487学校代码 _ 密级 _硕士学位论文数据网格环境下的元数据分发技术研究学位申请人: 学科专业:计算机软件与理论指导教师: 辩论日期:2007年6月2日The Research on Metadata Dissemination Technology for Data Grid独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出奉献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明

2、的法律结果由本人承当。 学位论文作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保存、使用学位论文的规定,即:学校有权保存并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或局部内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密,在_年解密后适用本授权书。本论文属于不保密。请在以上方框内打“ 学位论文作者签名:          指导教师签名: 

3、0;  摘 要伴随着Internet网络规模的飞速增长,在计算密集型和数据密集型应用领域,传统的分布式计算和并行处理技术已不能满足高性能分布式处理和分布式海量存储管理的需求,于是网格技术应运而生。数据网格Data Grid的概念来自于网格,它是网格技术在数据管理方面的应用和实现。数据网格环境下的数据访问过程依赖于资源发现,而资源发现即为发现对数据资源进行描述的元数据,网格环境下网络资源频繁变化,相应的元数据变化也很频繁,而如何能更加快捷有效地获得所需要的元数据,就需要各个节点能够将各自的元数据快捷有效地分发到网络中的其他相关节点,这取决于元数据分发策略的实施。现有的元数据分

4、发策略根本可以分为两类:被动分发和主动分发。主动元数据分发具有很高的准确性,但是却会占用很多网络资源;被动元数据分发具有低代价性,但是却很难保证元数据的准确性。轮值会议元数据分发(Rotating Meeting Metadata Dissemination, RMMD)以轮值会议召开的方式来进行元数据的分发,并采用了HLAHigh Level Architecture数据分发管理中采用的数据过滤机制,它兼具了主动元数据分发的准确性和被动元数据分发的低代价性,能快捷有效的完成元数据在整个网格中的分发,让整个网格的元数据在较短的时间内、用较小的代价得到较好的配置。通过模拟仿真实验将RMMD策略与

5、主动元数据分发策略、被动元数据分发策略进行比拟,实验结果显示RMMD策略可以有效的分发整个网格中的元数据,提高分发的准确性,并保证分发的低代价性。关键词: 数据网格,元数据分发,轮值会议AbstractWith the rapid growth of internet network scale, the traditional distributed computation and parallel processing technology hasnt met the need of this high-powered distributed computation and distrib

6、uted management for large memory in the domain of computation-dense and data-dense application. As a result, grid technology came into being. Data grid of is the grid technology application and realization in data management.The process of data accessing in the data grid depends on resource discover

7、y which finds out the metadata that describes source. For the resource in grid frequently changes, the corresponding metadata changes a lot, too. To get the requisite metadata quickly and effectively requires that every node could disseminate its data to other corresponding nodes quickly and effecti

8、vely, and this lies on the implement of metadata dissemination strategy which is classified as passive and active. Active metadata dissemination (ACTMD) has great veracity but it occupies too much network resource. Passive metadata dissemination (PASMD) has low cost but it hardly ensures the veracit

9、y of metadata. Rotating Meeting Metadata Dissemination (RMMD) disseminate metadata in the way of rotating meeting convocation, and adopts the data filtration mechanism in HLA data distribution management .The RMMD which has both the benefits of veracity of ACTMD and low cost of PASMD can disseminate

10、 metadata in the whole grid quickly and effectively, and make the metadata in the whole grid get better collocation with lower cost in a shorter time. Compared RMMD with PASMD and ACTMD through simulation experiment, the results show the RMMD strategy could disseminate the metadata in the whole grid

11、 effectively, increase the veracity and ensure the low cost of dissemination.Keywords:Data Grid,Metadata Dissemination,Rotating Meeting目 录摘 要IAbstractII1 绪论研究背景(1)国内外研究概括(2)本课题研究的目标和意义(5)本文组织结构(6)2 数据网格中的元数据分发技术数据网格核心问题(7)元数据的提出(7)传统数据分发技术(11)数据网格中传统元数据分发技术(13)小结(15)3轮值会议元数据分发机制背景介绍(16)轮值会议元数据分发的原理(

12、18)轮值会议元数据分发的协议(19)小结(28)4原型系统开发与仿真实验分析RMMD原型系统开发(29)实验环境OPNET(30)仿真模型(34)仿真算法(37)实验与性能分析(40)小结(43)5总结与展望本文工作总结(44)展望(45)致 谢(46)参考文献(47) 1 绪论1.1 研究背景伴随着Internet网络规模的飞速增长,计算机网络技术和分布式技术得到了高速开展和广泛应用,许多科学计算领域,特别是计算密集型和数据密集型应用领域,对广域网环境下海量数字信息分析处理和协同计算能力的要求也越来越高1。这类应用需要将分布在不同地理区域的高性能计算能力、超大规模数据集合和各种资源整合在一

13、起,为分布在不同地理区域的用户提供效劳。传统的分布式计算和并行处理技术已不能满足这种高性能分布式处理和分布式海量存储管理的需求,于是网格2,3技术应运而生。网格技术可以把分布在各地的计算机连接起来,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享,感觉如同个人使用一台超级计算机一样。这种虚拟资源可以使相关人员迅速获得所需的数据访问和处理能力,帮助其进行计算密集型的研究和数据分析、解决复杂的业务问题。这样,网格就可以帮助用户突破今天技术根底设施的限制。对于传统网络环境,网格具有动态可变、异构、多域等特性。网格计算作为新一代的分布式计算框架,与传统分布式系统的主要区别在于在

14、没有集中控制的情况下,通过对计算资源进行大规模的共享,满足应用程序对高性能计算的要求4,并且这种对计算资源的大规模共享是动态的、柔性的、平安的和协作的。目前,在国内外网格也引起了极大的关注,如美国Argonne国家实验室研发的Globus系统5,6、欧洲数据网格DataGrid7、美国能源部的科学计算网格DOE Science Grid、中科院计算所的织女星网格VEGA Grid8等等。数据网格Data Grid源于网格,它是网格技术在数据管理方面的应用和实现。它将地理上分布、异构的多种数据资源,通过高速互连网络连接并集成起来,屏蔽底层异构的物理资源,形成单一的逻辑视图,实现资源共享和协同工作

15、,为用户提供虚拟的数据访问、数据存储、数据管理和处理环境。其中,良好地表示、存储、访问和使用大量资源信息是数据网格运行的根本前提。在数据网格计算中,资源是分布的,资源及其提供者也是分布的。为了对网络资源进行有效的管理和检索,使目前有序和无序状态并存的网络资源能够像传统资源如馆藏资源一样有序化,从而使它们得到更好的利用,人们一直都在作着多方面的努力。从早期的Archie和Gopher系统,到近期的搜索引擎和主题指南,都是这方面努力的成果。历年实践说明,增加关于资源的额外信息或元数据(metadata)是更好地组织资源的根底,它能够提高相关资源被检索和存取的可能性,提供对主题领域更清晰的全面认识,

16、并提高用户区别相似资源的能力。正因为如此,元数据逐渐受到普遍的重视9。元数据(metadata),简言之就是“关于数据的数据,是对数据进行组织和处理的根底。数据网格环境下的数据访问过程依赖于资源发现,而资源发现即为发现对数据资源进行描述的元数据。同时数据网格环境中网络资源频繁变化,一方面,结点可以动态的参加、离开系统,另一方面,各个节点中的资源也是不断变化的,相应的元数据变化也很频繁,而如何能更加快捷有效地获得所需要的元数据,就需要各个节点能够将各自的元数据快捷有效地分发到网络中的其他相关节点,这取决于元数据分发策略的实施,也是本文集中探讨的问题。1.2 国内外研究概括1.2.1 Globus

17、中的元数据目录效劳Globus系统是目前比拟具有影响力的一个网格工程,提供网格环境下的中间件效劳,如MDS、GridFtp等。系统使用标准的协议实现了文件数据的移动、远程访问GASS及数据的高速传输GridFtp机制,在此根底上完成数据复制、元数据目录的管理MDSMetadata and Directory Service和复制的选择工作,为数据网格系统提供了一个较好的底层系统开发平台10。其中,MDS在网格环境中提供资源信息效劳11。MDS主要负责对网格环境中信息的发现、注册、查询、修改等工作,提供对网格计算环境的一个真实、实时的动态反映。该效劳是建立在轻权目录访问协议LDAPLightwe

18、ight Directory Access Protocol12根底上的,处理网格计算环境中的各种资源(包括数据资源、计算资源等)、效劳和其他主体(entity)的描述,是网格计算环境中的信息效劳中心。它采用两层结构13:1) 网格资源信息效劳器(Grid Resource Information Server, GRIS):以一种目录的结构登记具体的资源信息。2) 网格索引信息效劳器(Grid Index Information Server, GIIS):记录有GRIS的地址,并能提供GRIS信息缓冲。1.2.2 GridDaen中的元信息效劳GridDaen是国内最早实现的通用数据网格原

19、型系统,是中国国家网格China National Grid, 简称CNGrid研究的一局部。CNGrid是国家“十五863方案“高性能计算机及其核心软件重大专向支持建设的网格示范平台,通过资源共享、协同工作和效劳机制,有效支持科学研究、资源环境、先进制造和信息效劳等领域的应用,以技术创新推动国家信息化建设及相关产业的开展。GridDaen主要目标是统一管理和访问分布异构环境下的海量存储和数据资源,为用户提供一体化虚拟数据空间和统一逻辑视图,支持对分布数据集的统一无缝访问,实现虚拟数据集和跨管理域的联邦数据效劳。系统具有可扩展性、平安性、动态可配置、高性能、高可用性等特点14。GridDaen

20、主要由客户机、数据访问、元信息效劳MDIS(Metadata Information Service)和底层异构资源四局部组成。其中,数据访问子系统包括请求优化管理调度与DRB(Data Request Broker)效劳器,元信息效劳子系统包括高层元信息效劳与局部信息效劳。DRB效劳为用户提供数据访问、存储和管理的功能。MDIS是一个层次式分布效劳结构,由局部元信息效劳器和中央全局元信息效劳器组成。各个局部元数据效劳器负责所对应本地的资源和数据元信息效劳,提供元信息效劳的访问。中央效劳器建立各个局部元信息的索引和数据缓冲,为DRB实现统一的访问接口和全局数据视图提供元信息支持。MDIS和DR

21、B是相互独立设计和实现的,通过系统的部署和配置建立效劳关系。图1.1为元信息效劳逻辑结构图。中央全局元信息效劳器处于系统的中央位置,管理着分布各处的局部元信息效劳。局部元信息效劳那么分散在系统中的不同位置,受到中央节点的管理和监控。局部元信息效劳一般位于某台元信息效劳节点机器上,通过配置为某个或者某几个DRB域提供元信息效劳。这种两层式设计可以提高系统的可扩展性,方便系统管理,并减少了集中式设计带来的性能瓶颈和单点失效问题。中心节点局部Site A局部局部Site CSite BSite X图1.1 元信息效劳逻辑结构图1.2.3 传统网格中元数据分发技术现有的元数据分发方式根本可以分为两类:

22、被动分发和主动分发。对于被动分发而言,除非有请求到达,节点不会发布自己拥有资源的元数据;主动分发与之相反,当节点参加网络或者节点数据发生一定变化的时候,节点会立即发布自己的元数据。显然,被动分发的网络资源的消耗甚小,但同时对于网络资源频繁变化的环境,元数据中存在很多错误,其他节点数据的准确性无法得到满足。而主动分发可以在最大可能上保证元数据的准确性,从而可以增加节点数据的有效性,但由于分发数据过多,对网络资源的使用也是最多的。对于主动分发而言,根据对元数据分发处理的不同,即分发给什么样的节点以及怎么样转发别的节点发来的元数据,可以将主动分发策略分为以下几种15,16。1. 泛洪式 在该算法中,

23、元数据分发采用最简单的泛洪的方式。也就是说:当自身产生更新消息后,也向网格中的所有节点发送消息。2. 邻居式在该算法中,所采用的策略是:设定一个半径范围该半径可以用节点跳转数来衡量发送消息时,只向处于该半径范围之内的所有节点发送消息。 3. 水流式 在这种方法中,采用的其实是一种特殊节点法,根据某种方式来确定出某些特殊节点。现在比拟流行的是网格势能来区分节点的处理能力。网格上的一个节点的网格势能可以被认为是可以被分派给某个节点上的应用程序的处理能力。该处理能力依赖于邻近出现的机器以及他们之间互连的网络。同时还有一个相对网格势能:节点相对于某个远程节点的势能。如果节点的自身网格势能小于相对于某远

24、程节点的势能,就把由该远程节点发出的消息进行转发,否那么不转发。而对于自身产生的更新消息,如果周围节点相对势能的平均值小于该节点的自身的势能,那么该节点可以向周围的所有节点进行消息发送;否那么不能进行消息发送。这种方式的主要特点是:消息从势能高的节点流向势能低的节点。这类似于水流的形式,故称为水流式。 4. 质点式 本算法依然采用了网格势能的概念。不同的是:即使相对势能比自身势能要低,节点也并不一定可以发送消息。在该算法中,引用了概率论的知识,即节点随机选取周围局部的节点进行消息发送。这种行为有点类似于质点的活动方式,故而称为质点式。1.3 本课题研究的目标和意义 元数据被动分发对网络资源的消

25、耗甚小,具有低代价性,但同时对于网络资源频繁变化的环境,元数据中存在很多错误,其他节点数据的准确性无法得到满足。而元数据主动分发可以在最大可能上保证元数据的准确性,从而可以增加节点数据的有效性,但由于分发数据过多,对网络资源的使用也是最多的。如何能设计出一种分发策略,将这两种分发技术的优点结合起来,这将是本文的工作核心。本文通过对传统数据分发技术,特别式网格中的元数据分发技术的研究,提出了一种新的元数据分发机制,并设计实现了这种分发策略,通过仿真实验的比照验证,实验结果说明这种分发策略确实综合了主动分发的准确性以及被动分发的低代价性。1.4 本文组织结构本文以数据网格为研究背景,介绍了传统的元

26、数据分发技术,在此根底上提出了一种新的元数据分发框机制,并通过仿真实验与传统的分发技术进行了分析比照。本文各章的内容安排如下:第一章为绪论,介绍了本课题的研究背景,然后介绍了国内外的研究现状。第二章为数据网格中的元数据分发技术,介绍了数据网格中的核心问题,并对元数据的概念、网格中元数据的分类、元数据常有的标准化问题以及元数据分发方式做了详细的分析和介绍,最后详细介绍了传统的数据分发技术以及数据网格中的传统元数据分发技术。第三章为轮值会议元数据分发机制,首先介绍了设计此分发机制的背景知识,随后提出了一种新的元数据分发机制,最后对对这种分发机制进行了设计和实现。第四章为仿真实验与性能分析,首先介绍

27、了RMMD的原型系统开发,之后分析了OPNET仿真工具,随后详细介绍了仿真模型及实验算法,最后给出仿真实验结果。第五章为总结与展望,最后为致谢与参考文献。2 数据网格中的元数据分发技术2.1 数据网格核心问题数据网格在网格根本功能的根底上扩充数据管理功能,提供与信息有关的各种效劳,其最核心的关键技术是元数据管理和存储资源代理。良好地表示、存储、访问和使用大量资源信息是数据网格运行的根本前提。在数据网格计算中,资源是分布的,资源及其提供者也是分布的,这些资源包括数据、计算机、设备、网络、外设、软件、效劳、代码、人员等17。元数据管理效劳命名、描述、收集、组织和管理数据网格中的资源信息,这些信息就

28、是用于描述资源、方法、数据集和用户的元数据。为了实现命名的透明性,网格需要有效管理数量繁多的名字和属性,以及它们之间的关系;为了实现定位的透明性,网格需要有效管理数据集的定位信息;为了实现协议的透明性,网格需要有效管理数据资源的有关信息。实际上,这些信息就是用于描述资源、方法、数据集和用户的元数据,概括地说,元数据目录为用户身份认证、数据定位、访问控制、数据复制等提供支持18。2.2 元数据的提出2.2.1 MDS元数据概念元数据的概念起源于计算机科学,早在20世纪60年代,为了有效描述数据集,Jack Mayers就定义了Metadata一词的概念,其中文译名有多种,元数据是其当前在中国大陆

29、比拟通用的译名。元数据最常见的宽泛定义“关于数据的数据已经得到了普遍认可,但由于这一定义过于简单抽象,对它的认可只是说明在元数据的本质方面人们达成的共识。事实上,人们对元数据的理解和认识还存在不少差异,迄今尚未形成一个真正统一的元数据定义19。较宽泛的元数据定义:元数据是描述一个具体的资源对象,并能对这个对象进行定位、管理,且有助于它的发现与获取的数据。这是一个比拟笼统的概念,它包括多个词汇:元数据标准、元数据项、元数据记录等,可以认为是这些概念的统称。元数据的产生对管理庞大的信息数据起着不可无视的作用。元数据的应用领域广泛,作用也各不相同,但总体来看,它们都具有一些共同的根本功能20。1.

30、描述功能元数据的根本功能就是对信息资源进行描述,供用户读取以便了解自己所获信息是否是所需要的。因此可以节约用户的时间和精力,也可减少网络中信息交换的浪费。2. 检索功能元数据是提供检索的根底。元数据将信息对象中的重要信息抽出,加以组织,赋予语意,建立关系,使得检索结果更加准确。因此利用元数据进行简单、复杂或综合的信息查询,可以提高查询效率。3. 定位功能元数据包含有信息资源的位置信息,由此便可确定资源的位置所在,促进网络中信息对象的发现和检索。4. 选择功能根据元数据提供的描述信息,结合使用环境,用户便可对信息对象做取舍决定,选择适合用户使用的资源。5. 评估功能元数据提供信息对象的各类根本属

31、性,使用户在无需浏览信息对象本身的情况下就能对信息对象具备根本的了解和认识,参照有关标准,即可对其进行价值评估,作为使用的参考。2.2.2 元数据的分类元数据的应用领域不同,对元数据就会有各自不同的分类方法21。在网格数据管理环境下,一般将描述数据对象的元数据分为五种类型22,如图2.1所示。最底层的物理元数据包括描述物理存储系统数据对象的元数据和副本定位元数据,其中物理存储系统包括文件系统和数据库管理系统。副本定位元数据提供将逻辑名与一个或多个副本物理定位信息相映射的效劳。 用户元数据User Metadata虚拟组织元数据Virtual Organization Metadata特定域元数

32、据Domain-Specific Metadata无关域元数据Domain-Independent Metadata物理元数据Physical Metadata图 元数据的五种类型无关域元数据描述一般元数据属性,这些元数据属性无论在应用域还是在虚拟组织中都会涉及和描述,如对逻辑名字,数据对象的创立者和维护者,授权和审查信息,共享池或视图中的数据对象集等信息的描述。特定域元数据包括指定的某应用域、虚拟组织或某特定用户所用的数据对象集的元数据描述。特定域元数据的属性通常为某些应用团体所开发的元数据实体。例如,物理学家或地震学家都共享一些通用的学术术语和量度,这些特性可用于描述一些共享的数据集和表示

33、可使用的元数据属性通用集。虚拟组织元数据描述的是某个特定虚拟组织所使用的数据集内容。虚拟组织包括多个科学或企业机构,他们可能定义了一些特定的元数据属性集来描述传统的特征数据集。用户元数据用于对单个用户所使用的数据集进行描述。这些元数据可能是互相关联的数据集属性,如对某些数据对象或共享池里的数据进行描述。元数据及其提供的效劳在数据网格中对数据集的发布、发现和存取都起着极其重要的角色。2.2.3 元数据标准化问题90年代元数据模式(Metadata Schema)大量涌现,不仅出现了很多针对不同资源的元数据模式,同时由于缺乏标准和一致性约束,针对同一资源类型也出现了多种描述。另外元数据应用的广泛性

34、,参与制定元数据模式的团体众多等原因,都是造成元数据模式大量出现的原因23。元数据模式的众多,尤其是同一种资源有多种元数据模式的出现,不可防止地导致了数据共享问题的产生。唯一能够在不同数据管理软件间交换元数据的途径是制定统一的元数据标准。元数据标准能够使数据生产者和用户一起着手处理有关元数据交换、共享和管理的问题。因此元数据的标准化和标准化问题也就逐渐提上了日程。元数据标准的研制与实施已引起各国广泛重视,许多国家不但已经完成标准的制定,开发了多种操作工具软件,建成大量的元数据库,并已投入使用,而且屡次召开国际学术讨论会,对元数据的理论、实施、应用及标准化的有关问题进行讨论。元数据标准是描述某类

35、资源的具体对象时所有规那么的集合。不同类型的资源可能会有不同的元数据标准。一般而言,元数据标准包括三个方面的内容:内容结构、语义结构和语法结构。(1) 内容结构是对元数据标准中的构成元素及其定义标准进行描述。(2) 语义结构是定义元数据标准中元素的具体语义描述方法,尤其是定义描述时所采用的公用标准、最正确实践或自定义的语义描述要求(Instructions)。其中主要涉及到两方面的内容:语义定义规那么和语义定义方法。(3) 语法结构负责定义元数据标准的结构以及如何描述这种结构,即元数据在计算机应用系统中的表示方法和相应的描述规那么,这些称为元数据的描述语言和语法结构。目前,通常采用的是XML和

36、RDF两种方式24。2.2.4 元数据分发方式分类现有的元数据分发方式根本可以分为两类:被动分发和主动分发。对于被动分发而言,除非有请求到达,节点不会发布自己拥有资源的元数据;主动分发与之相反,当节点参加网络或者节点数据发生一定变化的时候,节点会立即发布自己的元数据。显然,被动分发的网络资源的消耗甚小,但同时对于网络资源频繁变化的环境,元数据中存在很多错误,其他节点数据的准确性无法得到满足。而主动分发可以在最大可能上保证元数据的准确性,从而可以增加节点数据的有效性,但由于分发数据过多,对网络资源的使用也是最多的。2.3 传统数据分发技术2.3.1 HLA中的数据分发技术高层体系结构HLAHig

37、h Level Architecture25是新一代分布式交互仿真标准,它的一个重要特征就是将仿真应用与底层的通信和根本功能相别离,由运行支撑系统RTIRuntime Infrastructure26,27提供的效劳来实现底层的通信和根本功能,联邦成员不必涉及底层的网络编程。在它的框架中,每个描述一定功能的子模块或仿真过程都被称为是HLA的一个联邦成员,每个联邦成员包含假设干个对象。目前RTI提供联邦管理、声明管理、对象管理、所有权管理、时间管理和数据分发管理六大类效劳以及一些必要的支持效劳,其中数据分发管理DDMData Distribution Management是一类关键的效劳,其主要

38、目的是为了尽可能地减少联邦成员收到不需要的数据和网络数据流量,以有效地使用系统的通信带宽和处理机的计算能力来满足系统的可扩缩性,这种机制即为一种数据过滤机制。通过数据过滤机制,使仿真实体只与感兴趣集内的实体交互,它的目的主要有两个:一是尽可能减少不相关数据的产生,以减少网络带宽的占用;二是降低仿真结点接收冗余数据时引起的处理开销。在HLA中,支持数据过滤的根本概念是区域(Region)。对象实例利用区域描述向外部发送数据以及从外部接收数据的需求信息。对象实例通过更新区域(update region)和订购区域(subscribe region)描述向外发送数据和接收外部数据的约束条件。数据分发

39、管理进行数据过滤的主要实现策略是各联邦成员在择径空间中分别表达各自感兴趣的更新区和订购区,通过更新区和订购区的比拟,当存在共同的兴趣区时(即更新区和订购区出现重叠时),DDM将更新联邦成员更新的数据信息传递到订购区与其更新区相重叠的订购联邦成员处。图2.2即为一个数据分发管理的根本实现流程。DDM中采用的数据分发算法一般采用基于网格的过滤方法,此方法是一种传统的多播组分配方法。在该方法中,路由空间被分成一个由固定大小的网格单元构成的阵列,每一个网格单元对应一个多播组。当联邦成员的定购区域与网格单元交迭时,就将联邦成员参加到该网格单元对应的多播组中。当联邦成员希望发送数据更新时,更新仅被发送到与

40、该联邦成员更新区域交迭的网格单元所对应的多播组。对应于交迭单元的多播组负责将数据更新传送到多个定购联邦成员。图2.2 HLA中数据分发管理的根本实现流程2.3.2 CDN中的数据分发技术CDNContent Delivery Network,即内容分发网络技术。CDN的根本思路就是通过在Internet网络结构中增加一个完善、全面的中间层,利用缓存、复制、负载平衡和DNS重定向等技术,实时处理网络流量和各节点的负载状况,将用户的请求导向最近的效劳节点上,用户就近取得所需的内容,从而解决网络拥塞、提高上网访问的总体性能。CDN网络中客户的内容请求通过全局内容路由到达某个内容交换机,由交换机将请求

41、的内容分发到距用户最近的网络边缘节点,即内容缓存效劳器上,同时也将客户的请求重定向到边缘节点,改善用户的访问效果。CDN的主要技术有内容路由、内容分发等28,29,30。内容路由技术的作用是将用户请求导向整个CDN网络中的最正确节点。最正确节点的选择可以运用多种评估策略来实现,例如用户与效劳器距离最近、效劳器负载最轻等。这是CDN的核心,它决定了整个CDN的效率和性能。内容路由技术可以通过多种方法实现,包括DNS、应用层重定向、传输层重定向等。内容分发技术指将内容从源到复制缓存到CDN边缘效劳器的过程。从实现上来看,有两种主流的分发技术:PUSH和PULL。PUSH是一种主动分发的技术。通常,

42、PUSH由内容管理系统发起,将内容从源或中心媒体资源库分发到各边缘的Cache 节点。对于PUSH分发需要考虑的主要问题是分发策略,即在什么时候分发什么内容,可以根据用户访问的统计信息,以及预定义的内容分发规那么来确定。PULL是一种被动的分发技术,PULL分发通常由用户请求驱动。当用户请求的内容在本地的边缘Cache上不存在时,Cache启动PULL方法从内容源或者其他CDN节点实时获取内容。在PULL方式下,内容的分发是按需的。2.4 数据网格中传统元数据分发技术2.2.4节的介绍可知,传统元数据分发技术可以分为两大类:主动分发和被动分发,由于被动分发较为简单,根本上不会涉及到分发算法研究

43、,目前的研究根本上集中于主动分发上。对于主动分发而言,根据对元数据分发处理的不同,即分发给什么样的节点以及怎么样转发别的节点发来的元数据,传统主动分发策略也可以进行划分,下面将逐一进行介绍15,16。2.4.1 泛洪式(Flooding)在该算法中,元数据分发采用最简单的泛洪方式。在这种算法中,假定每个节点都了解整个网格中所有节点的信息,这样当节点自身产生更新消息后,它会向网格中的所有节点发送消息。很显然,当网格规模较大时,由于网格中节点较多,这种分发方式的效率低下,且会产生极大的网络流量,这中风暴式的分发也必然会对网络稳定运行提出极大的挑战,因此这种分发只可能在极少数特殊的情况下采用。2.4

44、.2 邻居式(Neighborhood) 为了减少泛洪式元数据分发过程中产生的极大网络流量,邻居式分发算法得以提出,在该算法中,每个网格节点具有一个邻居半径属性R,即此节点了解半径为R范围内的节点,这样在节点产生了更新消息时,它就会在消息中设置TTL值为R,约定只有在TTL值大于0的情况下,消息才能进行转发,这样收到更新消息的邻居节点就会判断TTL是否大于0,如果大于0就会将其减1后向自己的邻居节点进行转发,否那么不进行转发。这样只有在距节点逻辑跳数不大于R范围中的节点才能收到消息,这种分发方式较之泛洪式分发方式可以明显的减少对网络带宽的占用。但是这种分发方式所产生的网络流量也是非常大的,分发

45、效率也不高。2.4.3 水流式(Fluid)在这种方法中,为了进一步降低分发的网络流量以提高元数据分发的效率,引入了现在比拟流行的是网格势能Grid Potential,GP来区分节点的处理能力。网格上的一个节点的网格势能可以被认为是可以被分派给某个节点上的应用程序的处理能力。该处理能力依赖于邻近出现的机器以及他们之间互连的网络。同时还有一个相对网格势能:节点相对于某个远程节点的势能。如果节点的自身网格势能小于相对于某远程节点的势能,就把由该远程节点发出的消息进行转发,否那么不转发。而对于自身产生的更新消息,如果周围节点相对势能的平均值小于该节点的自身的势能,那么该节点可以向周围的所有节点进行

46、消息发送;否那么不能进行消息发送。这种方式的主要特点是:消息从势能高的节点流向势能低的节点。这类似于水流的形式,故而称为水流式。文献15,16给出了网格势能的计算方法:即选定一段特定的基准代码,这样以各网络节点执行这段基准代码的效率来确定各节点的网格势能,为了测试一个节点的网络势能,需选取一个标准节点作为比照,设C为这段基准代码的工作量,为标准节点执行基准代码所需的时间,为测试节点的负载量以节点平均工作量队列长度作为衡量指标,为测试节点的工作速度,那么测试节点执行基准代码的时间的计算公式为: (2.1)设为测试节点的网格势能,那么根据定义,其计算公式为: (2.2)根据公式(2.1)及(2.2

47、),可得网格势能的推算公式为: (2.3)另外,节点相对网格势能的计算过程与上述类似,在此不再详述。2.4.4 质点式(Particle)为了进一步降低分发的网络流量以提高元数据分发的效率,本算法在引入网格势能的同时又对分发的目标进行概率处理。它与水流式的不同处在于:即使相对势能比自身势能要低,节点也并不一定可以发送消息。在该算法中,引用了概率论的知识。设某个节点势能为向远程节点相对势能为发送消息的可能性为:,其中k是一个常数,这样节点对周围n1个节点所能发送消息的节点数为:,节点会对n1个邻居节点中随机的选取个节点进行消息发送。这种行为有点类似于质点的活动方式,故而称为质点式。2.5 小结本

48、章首先分析数据网格中的一些核心问题,随后对元数据的概念、网格中元数据的分类、元数据常有的标准化问题以及元数据分发方式做了详细的分析和介绍,最后详细介绍了传统的数据分发技术以及数据网格中的传统元数据分发技术。对上述关键技术的充分研究,为第三章提出的一种新的元数据分发机制的设计和实现提供了相应的根底和依据。3 轮值会议元数据分发机制3.1 背景介绍3.1.1 网络拓扑结构数据网格可以认为是由一条高速链路将一系列的异构用户连接起来的虚拟网络,在实际网格应用中,整个网格系统会根据其自身需求和目的的不同划分为多个虚拟组织的形式。虚拟组织为所有参与者提供可用资源,获取同一标准,并在资源可以被使用的条件下使

49、用资源等功能31,32,每个虚拟组织管理的效劳可理解为地理位置分布、逻辑位置相邻、属性相似的效劳集合。如图3.1所示,实际的数据网格系统可以分为上下两层,下层为集中控制层,上层为纯P2P层非结构化。这样下层中的网格用户就会被划分到不同的虚拟组织域中,并且每个虚拟组织域中都有一个元数据效劳器,这样每个域内是属于集中控制的;同时所有的元数据效劳器之间是纯对等的,即构成非结构化的P2P。图3.1 数据网格拓扑分层这样实际上就将数据网格中的用户划分为两类:管理节点以及普通节点,其中普通节点负责提供资源,同时也会请求资源;而管理节点即为一个元数据效劳器,响应所辖域中普通节点的资源请求,同时还会与其他的管

50、理节点进行交互。一个管理节点负责管理多个普通节点,它会收集所辖域中的所有普通节点的元数据信息以及它们所请求的元数据信息,并进行汇总,同时通过一定的控制策略来与其他的管理节点进行交互,以获取各自所需的元数据信息,最后将得到的元数据信息分发给所辖区的普通节点。由此可知,元数据分发的关键技术就落到了如何在管理节点间进行元数据分发的问题上,这也是本章研究的重点。3.1.2 小世界网络小世界(Small-World) 33,34,35的概念来自于60年代末Milgram在哈佛完成的一个著名实验:他在信封上写上他在美国波士顿的一个朋友的地址,然后在在英国随机选择了假设干人,要求他们把信通过中间人转交给他的

51、朋友,注意每次都要把信转交给他认为最有可能找到收信人的熟人,下一个转发者再按照同样的方法将信转发。经过统计分析,Milgram发现在任何两个陌生人之间,只需要平均通过6个熟人就能联系在一起,这种特征被称为“6度别离。Milgram的实验说明:社会中任意挑选的两个人之间,总存在一条由中间的熟人组成的短链把他们连接在一起,而他们也总能找到这条短链,这个结论用物理学的术语来说就是“小世界效应。Watts和Strogatz进一步指出小世界现象不仅存在于人类社会,它同样存在于现实世界的许多自然和人工的网络。符合Small-World这一特性的网络各个节点的连接度比拟均匀,即根本上每个节点的联结数都近似相

52、等,同时任意两个节点之间建立连接的长度都很小。研究说明目前流行的Gnutella网络也呈现Small-World特性。3.1.3 Zipf定律Zipf定律是由美国学者G.K.Zipf于上世纪40年代提出的词频分布定律:如果统计一篇较长文章中每个词出现的频率,按照高频词在前,低频词在后的递减顺序排列,并用自然数把这些词编上等级序号,频率最高的词为1,频率次高为2,以此类推。假设用f表示频率,r表示序号,那么有,C为常数。Zipf定律也被称为80-20法那么,即80%的访问只会针对20%的数据。人们通过对现实Web系统中通信流量的分析,发现用户对Web对象的访问模式服从Zipf定律分布或者Zipf

53、-like定律分布36。Zipf-like定律分布中:概率表示访问频度,那么排列第个对象的访问概率为: (3.1)其中,为Zipf-like定律分布参数,n为所有数据的个数。通常。3.2 轮值会议元数据分发的原理2.2.4节介绍了目前两种元数据分发方式的优缺点,为了综合这两种分发方式的优点,即主动元数据分发Active Metadata Dissemination, ACTMD的准确性和被动元数据分发Passive Metadata Dissemination, PASMD的低代价性,再结合国内外关于分发技术的相关研究成果,提出了一种新的元数据分发机制轮值会议元数据分发(Rotating Me

54、eting Metadata Dissemination, RMMD)。3.2.1 轮值会议元数据分发的主要思想RMMD主要思想如下:采用轮值会议主持的方法,每个管理节点会周期性地被系统触发并短暂的成为中央效劳器,成为中央效劳器的管理节点“主持人会召开会议,并召集“代表相邻一定“距离的管理节点来参加会议,在会议进行中,每个“代表会向“主持人提交自己的元数据更新信息包括自己更新的元数据以及局部拥有的元数据、元数据定购信息,“主持人会将这些信息收集起来,并进行汇总,从而得到一个全局元数据更新视图和一个全局元数据定购视图,这样“主持人就会将结合全局元数据更新视图将自己的元数据进行更新,同时判断自己更

55、新后的元数据信息是否能满足所有元数据的定购需求。如果完全满足这些需求,那么“主持人就会按照每个“代表的定购信息将其所需的元数据发送过去,并宣告会议的结束;如果不能满足所有的元数据的定购需求,“主持人会收集无法满足的元数据,对这些元数据进行归类统计,得到一个全局元数据“重定购视图,最后按照自己的元数据将满足每个“代表定购信息的元数据发送过去,同时将全局元数据“重定购视图中的一局部发送过去,再宣告会议结束,这样定购信息没有完全满足的“代表只好参加下次会议去获取想要的元数据信息。一旦会议结束,参加会议的“主持人和“代表将不再存在关联,并且下一次会议将在一段时间后由系统指派另一个节点进行组织。3.2.

56、2 轮值会议元数据分发的特点RMMD综合了主动分发的准确性和被动分发的低代价性,并采用了HLA数据分发管理中采用的数据过滤机制,它具有如下的几个特点。第一,RMMD通过系统轮转触发机制可以在无结构化的纯P2P网络中引入局部集中控制机制,这样就能使元数据分发在局部范围内得到很好的实施,并且任何节点都有时机成为会议主持人并召集会议,只要能保证轮转机制的合理、公平、高效的展开,就能保证整个网络中的元数据得到较高效率的分发,至于怎样保证轮转机制的实施将会在下一节的RMMD的具体设计及实现中阐述。第二,每一个被触发的节点就是一个局部范围内的效劳器,一方面它可以让自己的元数据得到很好的更新,另一方面它又可以将自己的元数据分发给其他参加会议的节点,至于会议范围确实定以及分发怎样的元数据给会议参加节点,这些都会在下一节的RMMD的具体设计及实现中阐述。第三,轮值会议的开展可以保证整个网络中的元数据在较低的本钱代价下得到准确的配置,同时通过轮值会议可以让与会的节点对一定范围内的节点有更好的了解,而在传统的纯P2P网络中,每个节点仅仅了解与自己建立直接连接的节点即为“邻居节点,这一改良将能给在纯P2P网络中提供更好的网络应用和网络配置创造很好的条件。3.3 轮值会议元数据分发的协议3.3.1 轮值会议协议设计为了让RMMD机制得到实际的应用,并让元数据分发策略得到实施,必须合理的设计轮

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论