下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
新一代网格的特征
1面向服务、支持主体网络的语义网格管理和使用网格应用程序和网格操作生成的大量数据,并智能使用网格资源和网格服务是下一代网格的两个主要特征。为了实现这些目标,新一代网格应当具有网格智能的知识发现和知识管理的功能。网格智能专门研究如何将网格不同层面的数据和信息有效地获取、表示、交换、集成并最终转变为有用的知识。计算机领域正在兴起的一些关键技术和方法为网格智能的解决方案提供了契机,比如P2P(peer-to-peer)和遍在计算,基于本体的推理以及知识管理等。特别地,本体和元数据是网格智能服务得以实现的基本要素。依靠本体,网格才能对用户任务/需求、可用服务和数据源提供语义建模,以便支持高层服务与动态服务的发现和组成。此外,数据采掘和知识管理技术使基于语义的高层服务成为可能。这些高层服务可用于操作层(网格管理在操作层从数据中获取隐藏的知识)和应用层(用户在应用层采掘分布的数据仓储)。概括地讲,资源本体和元数据支持智能搜索和浏览;知识发现和知识管理技术支持高层服务;P2P和遍在计算使得诸如存在管理、资源发现及共享、协作和自配置等基本服务得以实现。目前,网格发展的目标是尽量使网格应用的建立过程简单化和结构化,实现的办法包括:组成和重用软件组件;开发基于知识的服务和工具。顺应这一趋势,首先诞生了开放网格服务体系结构(OpenGridServicesArchitecture,简称为OGSA),OGSA第一次在网格中引入了面向服务的模型;其次,诞生了语义网格,它的目标就是采用元数据和本体来描述网格上的资源、服务和数据源,从而自动地增强诸如服务发现和协商、应用组成、信息抽取和知识发现等处理过程;最后,出现了知识网格,知识网格提供了从网格数据库中进行分布采掘和知识抽取的高层工具和技术,并且以网格服务(Web服务的OGSI扩展)的形式提供知识发现服务。知识网格的运行依赖于语义网格对组件和数据的语义描述。2技术和系统管理面对日益增长的网格复杂性和管理海量数据的需要,未来网格的主要需求如下:╋?知识发现和知识管理功能:它对用户需求(如对数据的智能采掘)和系统管理都是必需的。╋?语义建模:对用户的任务/需求、网格服务、数据源、计算设备(从传感器到高性能计算机)进行语义建模,以便支持高层服务和动态的服务发现与组成。╋?基于环境/上下文感知的和自适应的普适计算与遍在计算。╋?基于动态虚拟组织的高级协作形式。╋?自配置、自主管理、动态资源发现和容错。为了实现上述需求,新一代网格应当首先提供下列主要类型的服务和相关的体系结构框架。2.1网格服务的深度它们被用来以同构的方式建立、操纵和互操作网格知识库。所谓网格知识库是指,由网格保存、维护和更新的所有数据,这些数据既可用于用户,也可用于应用和操作。例如,知识库包括Globus的监听与发现服务的数据和元数据,网格服务用法说明的数据,还有应用的数据源和结果等。目前,许多这样的数据是由网格中间件或网格应用维护的,所以新一代网格所面临的最主要挑战是对这些数据的无缝集成和使用。从体系结构的观点看,构建和操纵网格知识库并在其上进行推理的有用技术是本体和逻辑编程,网格(如语义网格)中的每个对象将被一个或多个本体分类到知识库中。两个与网格知识库相关的重要服务是:基于本体的网格编程和基于本体的请求资源匹配。在第4节中,我们将介绍一个以领域本体为基础的基于组件编程的简单例子。2.2基于网格的学习服务它们被用于从网格知识库的数据中抽取知识。这些服务将被用于两个方面:建立高层的知识发现应用(如在知识网格中的情形);增强已有的基本的网格服务。举两个利用知识发现服务的高层应用的例子:一个是基于网格的文档管理应用(对网格中的文档分类和检索);另一个是GridFTP协议的一个增强型版本(用数据采掘技术预测最好的传送参数)。这两个高层应用需要分布数据采掘功能和访问知识库分布式区分的能力,这正是知识发现服务所具备的功能。2.3语义压缩的业务探索对网格信息(元数据)进行语义压缩(有损或无损地)和综合,可以提供基于用户/服务目标和资源信息范围的网格知识库的不同视图。与通常的压缩技术不同,语义压缩可使内容被重组,产生一个综合的(被压缩的)有意义的形式。综合技术就是基于数据采掘的元数据探索,它通过展现细节的不同层面,提供网格资源的不同视图,使得对网格信息的访问和使用适应于不同的用户/服务目标。此外,来源于AdaptiveHypermedia研究团体的适应技术,可使服务自适应于基于上下文的用户计算环境。2.4动态发现算法当网格超越了预先建立的静态配置,使新的设备和资源可以动态地进入或退出网格,它就成为普适网格。此时,新开发的服务就必须具有自动适应动态环境的能力。P2P技术能够实现动态发现算法。上述服务可利用已有的和正在出现的网格成果累积地建立起来。图1表示利用网格领域的研究成果(如OGSA,语义网格、知识网格)构建一个一体化的服务体系结构。尽管这些成果的内容有一些重叠,但它们之间是互补的关系。一些可行的技术,如本体和推理,知识管理和知识发现在增强网格管理和操作方面的重要影响正日益凸显。此外,P2P和遍在计算技术正在被大力推广使用,可以预计,P2P将会成为网格应用中的全局性技术,它是诸如存在管理、资源发现和共享、协作和自配置等主要任务的基础。3知识网格k-grid新一代网格必须能够产生、使用和部署知识,因为知识是高级应用的基本要素。作为实现分布式高性能知识发现应用环境的知识网格便应用而生。知识网格是一个高层系统,用于提供基于网格的知识发现服务。使用这些服务,专业人员和科学家可以建立并管理以工作流形式出现的复杂的知识发现应用,工作流就是对网格上表现为分布式服务的数据集、采掘工具以及计算和存储资源的集成。知识网格方便用户组成、存储、共享和执行知识发现的工作流,并把它们作为新的组件和服务在网格上发布。知识网格被用来执行对网格上的大型数据集的数据采掘,这将有利于科学发现,有利于改进工业过程和组织模型,有利于揭示有价值的商业信息。知识网格提供了一个高层抽象和一个基于使用网格资源的服务集(如数据访问服务,工具和算法访问服务,执行计划管理服务,结果表示服务),该服务集对知识发现过程中的各个阶段提供了支持。所以,知识网格可使终端用户专注于知识发现的过程而不必担心网格基础设施的细节。知识网格的体系结构由下列两个层次的服务集组成。╋?核心K-Grid层包括关于数据源和软件组件(如数据采掘工具)的元数据和本体,它是基本网格中间件和服务的接口。╋?高端K-Grid层提供一个用于设计和执行知识发现应用的服务集作为用户的接口。在知识网格环境中,发现过程被表示成由具体的或抽象的网格资源组成的工作流。用户通过一个可视化的界面(如VEGA)来定义知识发现工作流,该界面不仅向用户展示资源(如数据、工具和宿主)还提供了将资源集成为工作流的机制。如下一节所示,高端K-Grid层使用基于本体的服务并能实现知识发现服务。4到领域知识和连接组件在基于组件的网格编程中,用户通过组装软件组件来设计一个应用。然而,选择组件(要用到领域知识)和连接组件(要用到编程知识)的任务通常也要用户来完成。在本研究案例中,我们将展示本体如何帮助用户在知识网格上设计和编程知识发现应用。先对一个已有的领域本体作简单介绍,然后展示了如何用本体在知识库中选择软件组件并构建知识发现应用。(1)数据仿真的功能过程相当于网格知识库的一个视图。DAMON(DAtaMiningONtology)是一个管理知识的本体,它管理的是关于数据采掘领域的知识和相关软件工具的知识。DAMON对数据采掘软件进行分类,能使用户选择最合适的软件来解决一个KDD问题。为了表示数据采掘软件的特征,DAMON本体对数据采掘软件的主要组件进行分类并表明这些软件之间的关系与约束。数据采掘软件按下列参数被归类:╋?任务表示从数据中抽取模式的数据采掘技术(如分类,聚类等),即一个任务指定一个数据采掘过程的目标。╋?方法用来发现知识的数据采掘方法(如决策树法,规则集法等),不同的方法服务于不同的目的。它可被看作是为抽取知识而对输入数据实施的结构化操作。╋?算法实现数据采掘任务的途径。╋?组件用某种编程语言对一个数据采掘算法的具体实现。╋?套件实现一组数据采掘算法。每个算法可以执行不同的任务,也可使用不同的方法以便达到目标。╋?数据源数据输入。数据采掘算法可以从中抽取知识。╋?人类交互指出在发现过程中,需要或支持什么程度的人工交互。用于支持知识发现编程的数据采掘知识库有两个概念层:在顶层,DAMON本体给出关于数据采掘领域的一般信息;而关于软件组件和数据源的特定信息则在资源驻留的地方维护。从体系结构的观点看,该本体是一个集中式资源,而特定的元数据则是分布式资源。例如,DAMON存储着C5.0软件实现C5算法(使用决策树方法的分类算法)的信息。描述C5.0软件所有安装实例详细信息的元数据文件的URL,就包含在该本体中C5.0软件节点上。(2)基于da东南角的数据挖掘应用通过本体访问网格知识库。DAMON有两个用途,首先,它被用作对数据采掘软件进行语义搜索的工具;其次,它是一个基于本体的助手,能够建议设计者在满足用户需求的基础上,该做什么和该用什么。换句话说,DAMON本体被用来增强应用的构成和设计,因为它能帮助用户选择和配置最适合于某个特定KDD过程的数据采掘方案。关于数据采掘任务和方法的信息,以及实现数据采掘算法的特定软件可以通过浏览或搜索本体获得。我们已经实现了数据采掘软件(基于概念的)和其他的数据采掘资源的语义搜索。搜索和选择用于知识发现应用的资源(数据源和软件组件,数据采掘任务、方法和算法的类型)按以下步骤实现:╋?基于本体的资源选择通过浏览和搜索DAMON本体,用户可以定位用于KDD过程特定阶段的更合适的任务、方法、算法和数据采掘软件。用户能够经由不同的访问点来导航DAMON本体,以获得更深层面的细节。此外,用户通过使用几种可以扩大查询范围的推理方法(如等价推理、反向推理、综合推理、分析推理)来查询数据采掘资源非常细节的信息。例如,假定查询结果集是空集,则通过将某些类用其超类或子类来代替的办法,用户至少可以找到部分地满足查询的对象。DAMON的一些可能的查询是:i)查找与某个特定论题有关的数据源。ii)查找实现某个算法的软件。iii)查找执行某个特定数据采掘任务的软件。iv)查找使用特定方法或算法的软件。╋元数据访问DAMON本体给出了知识网格上所有被选资源实例的元数据文件的URL。这些元数据只与安装在某个给定物理节点上的数据采掘软件和数据源紧密相关,并包含着客户访问和使用数据采掘软件和数据源的信息(如技术参数,可获得性,位置和配置)。例如,假定注册到知识网格KU节点上的某个用户,想要在DBX数据集上(存储在另一个节点KD上)执行由聚类和分类两个数据采掘任务组成的数据采掘应用。用户计划在DBX数据集的一个副本上并行地使用三种不同的算法将该数据集聚类,然后在三个不同节点上并行执行某个分类算法(如C5算法)来分析聚类结果,从而在同一个数据集上生成三个分类模型。步骤如下:i)使用DAMON本体进行浏览或查询。首先,在用户需求的基础上(如算法的计算复杂度,解决给定问题的态度,执行采掘任务的方法等),通过浏览或查询DAMON本体来搜索聚类算法;其次,搜索能在数据集DBX上实现该算法的聚类软件;最后,定位由节点KG1,KG2,KG3表示的元数据URL,三个节点分别提供了聚类软件K-Means,IntelligentMiner和Autoclass。此外,用户还能找到提供C5.0分类器的KG4节点。此时,通过访问每个被认定节点(如KG1,KG2,KG3,KG4)上的特定元数据,用户能够访问关于这些软件的特定信息。ii)通过一个图形化界面(VEGA),前面从元数据中所获得的信息被用来可视化地组成那些软件组件和数据源。然后,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学前教育教师合同争议解决
- 替代性纠纷解决服务行业市场前瞻与未来投资战略分析报告
- 智能机器人配送行业市场发展分析及兼并重组机会研究报告
- 游戏产业行业现状分析及未来三至五年行业发展报告
- 体育场清洁行业未来三年发展洞察及预测分析报告
- 商业规划行业风险投资态势及投融资策略指引报告
- 照相器材修理行业风险投资态势及投融资策略指引报告
- 国际知识产权交易法律服务行业风险投资态势及投融资策略指引报告
- 教师聘用合同
- 公寓管理行业未来三年发展洞察及预测分析报告
- 新质生产力与乡村振兴
- 深圳大学《西方文明史》2023-2024学年第一学期期末试卷
- 租赁合同 排他条款
- 湖北省武汉市部分学校2024-2025学年高一上学期11月期中调研数学试题(含答案)
- 2024-2030年中国数据中心IT基础设施第三方服务行业前景预测及投资模式分析报告
- 医院培训课件:《医院感染预防和职业防护》
- 节约粮食英文课件
- 固体废弃物专项措施方案
- 2024年上海民政局夫妻离婚协议书
- 青年创业就业见习基地项目建设方案
- 2024年刑法知识考试题库含答案【满分必刷】
评论
0/150
提交评论