(计算机应用技术专业论文)网格数据挖掘平台服务推荐系统研究.pdf_第1页
(计算机应用技术专业论文)网格数据挖掘平台服务推荐系统研究.pdf_第2页
(计算机应用技术专业论文)网格数据挖掘平台服务推荐系统研究.pdf_第3页
(计算机应用技术专业论文)网格数据挖掘平台服务推荐系统研究.pdf_第4页
(计算机应用技术专业论文)网格数据挖掘平台服务推荐系统研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机应用技术专业论文)网格数据挖掘平台服务推荐系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 随着信息技术的不断发展和普及,互联网上的信息资源呈指数膨胀,其结构 具有异构性、多元化、分布式等特点。因而,能帮助用户更为快捷地找到所需信 息的服务推荐系统得到了广泛关注。 服务推荐系统指收集和分析用户的历史喜好信息,通过使用相关推荐技术对 用户的意图进行预测,从中选出用户可能最为感兴趣的信息项作为最终的推荐结 果。服务推荐系统基于用户以往的偏好,提供个性化的建议,大大简化了用户从 海量信息资源中发现符合其需求的信息的过程。但是,随着推荐规模越来越大, 服务推荐系统也面临着一系列挑战,如:有效推荐算法的选择问题、推荐实时性 与推荐质量间的平衡问题、服务的描述与搜集问题等。针对以上问题,本文进行 了较为深入、有益的探索和研究。本文的主要t 作总结如下: 首先,提出了网格数据挖掘平台服务推荐系统总体架构,主要包括推荐引擎 模块、基于数据挖掘本体的服务查找模块、节点资源监视模块以及数据传输模块。 其次,面向数据挖掘专业用户,采用o w l 语言构建了一个数据挖掘本体, 从语义的角度对数据挖掘w e b 服务进行了描述,便于用户查看相关服务的具体 信息。同时,本文提出了基于该数据挖掘本体的服务匹配,使得用户能快速检索 到其需求的服务,从而提高了挖掘任务的执行效率。 最后,针对数据挖掘初学者,提出了一种基于关联规则与协同过滤混合推荐 策略的服务推荐引擎。该服务推荐引擎降低了该类用户查找其所需服务的难度, 从用户兴趣的角度出发推荐其较为感兴趣的数据挖掘w e b 服务。 网格数据挖掘平台服务推荐系统能够共享b i l l i o n g r i d 平台用户选择数据挖 掘算法的经验,针对用户不同角度的需求,及时、有效地做出数据挖掘w e b 服 务推荐。 关键词:b i l l i o n g r i d 平台数据挖掘w e b 服务数据挖掘本体服务推荐 a b s t r a c t w i t ht h ec o n t i n u o u sd e v e l o p m e n ta n dp o p u l a r i t yo fi n f o m a t i o nt e c h n o l o g y ,t h ei n f o r m a t i o n r e s o u r o eo nt h ei n t e m e tt a k e s o na ne x p o n e n t i a le x p a n s i o na n di t sa r c h i t e c t u r ep o s s e s s e s h e t e r o g e n e o u s ,d i v e r s i f i e d a n dd i s t r i b u t e dc h a r a c t e r s t h u ss e r v i c er e c o m m e n d a t i o ns y s t e m s w h i c hc o u l dh e l pu s e r sm o r eq u i c k l yf i n dt h ei n f o r m a t i o nt h e yn e e d l 急c e i v ee x t e n s i v ea t t e n t i o n s e r v i c er e c o m m e n d a t i o ns y s t e mr e f e r st ot h ec o l l e c t i o na n da n a l y s i so ft h eh i s t o r yo ft h e u s e r s ,p r e f e r e n c ei n f o r m a t i o n t h r o u g ha d o p t i n gr e l a t e dr e c o m m e n d a t i o nm e t h o d st op r e d i c tt h e i n t e n t i o no ft h ea c t i v eu s e r , s e r v i c er e c o m m e n d a t i o ns y s t e m s e l e c t st h ei n f o r m a t i o nt h a tt h ea c t w e u s e rm a yb ei n t e r e s t e di na st h er e c o m m e n d a t i o nr e s u l t b a s e d o nt h eh i s t o r yo ft h eu s e r s p f e f e f e n e ei n f o r m a t i o n , s e r v i c er e c o m m e n d a t i o ns y s t e m c o u l da f f o r dp e r s o n a l i z e da d v i c ea n d g r e a t l ys i m p l i f yt h ep r o c e d u r e o ft h eu s e r sf i n d i n gt h e i rn e e di n f o r m a t i o nf r o mm a s so f i n f o r m a t i o nr e s o u r c e h o w e v e r , w i t h t h ei n c r e a s i n gs c a l eo fr e c o m m e n d a t i o n s e r v i c e r e c o m m e n d a t i o ns y s t e mi sa l s of a c e dw i t has e r i e so fc h a l l e n g e s s u c ha st h ep r o b l e mo fe f f e c t i v e r e c o m m e n d a t i o na l g o r i t h m s s e l e c t i o n , t h e b a l a n c e p r o b l e m b e t w e e nt h er e a l - t i m eo f r e c o m m e n d a t i o na n dt h eq u a l i t yo fr e c o m m e n d a t i o n ,t h ep r o b l e mo fs e r v i c ed e s c r i p t i o n a n d c o l l e c t i o na n ds oo n a i m i n ga tt h ep r o b l e m sa b o v e ,t h i sp a p e rp e r f o r m sd e p t h a n du s e t u l e x p l o r a t i o na n dr e s e a r c h t h i sp a p e r sm a i nw o r ki n c l u d e st h ef o l l o w i n g s : f i r s t i v t h i sp a p e rp r o p o s e st h eo v e r a l la r c h i t e c t u r eo ft h es e r v i c er e c o m m e n d a t i o n s y s t e mf o r 西db a s e dd a t am i n i n gp l a t f o r m , i n c l u d i n gr e c o m m e n de n g i n em o d u l e , d a t am i n i n go n t o l o g y - b a s e ds e r v i c es e a r c hm o d u l e ,g r i dn o d e s r e s o u r c em o m t o r m g m o d u l ea n dd a t at r a n s m i s s i o nm o d u l e s e e o n d l v f o rd a t am i n i n gp r o f e s s i o n a lu s e r s ,t h i sp a p e ra d o p t so w l t ob u i l dad a t am i n i n g o n t o l o g ya n dd e s c r i b e st h ed a t am i n i n gw e bs e r v i c e sf r o mt h es e m a n t i cv i e w a tt h es a m et i m e , b a s e do nt h i so n t o l o g yt h i sp a p e rp r o p o s e ss e r v i c em a t c h i n gi no r d e rt oa l l o wp r o f e s s i o n a lu s e r st o q u i c k l vs e a r c ht h es e r v i c e st h e yd e m a n df o ra n ds oi n c r e a s e st h ee f f i c i e n c y o fm i n i n gt a s k s i m p l e m e n t a t i o n l a s t l y , f o rd a t am i n i n gn e wu s e r s ,t h i sp a p e rb r i n g sf o r w a r das e r v i c e r e c o m m e n d a t i o n e n g i n eb a s e do na s s o c i a t i o n r u l e sa n dc o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o ns t r a t e g m s 。ih i s s e r v i c er e c o m m e n d a t i o ne n g i n eg r e a t l yr e d u c e st h ed i f f i c u l t yo ft h eu s e r st o d i s c o v e r yt h e i r r e q u i r e ds e r v i c e sa n dr e c o m m e n d st h eu s e r sw i t hd a t am i n i n gw e bs e r v i c e st h e ym a y b ei n t e r e s t e d i nf r o mt h ev i e wo f t h eu s e r s i n t e r e s t i n g s e r v i c er e c o m m e n d a t i o ns y s t e mf o rg r i db a s e dd a t am i i l i n gp l a t f o r mc a ns h a r e o t h e ru s e r s e x p e r i e n c ea b o u th o wt h e ys e l e c td a t am i n i n ga l g o r i t h m ,a i m i n ga tt h e r e q u i r e m e n t so fd i f f e r e n tv i e w s ,t i m e l ya n de f f e c t i v e l yr e c o m m e n dt h ed a t am a m n g w e bs e r v i c e s k e yw o r d s :b i l l i o n g r i dp l a t f o r m , d a t am i n i n gw e bs e r v i c e s ,d a t am i n i n g o n t o l o g y , s e r v i c er e c o m m e n d a t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得墨鲞蕉堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:列角 签字日期:叶年j 月;f 日 学位论文版权使用授权书 本学位论文作者完全了解墨鲞盘堂有关保留、使用学位论文的规定。 特授权墨鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。( 保密的学位论文在解密后适 用本授权说明) 学位论文作者签名:聋j 帛 签字日期:纠年j 月多f 日 导师虢咤薏i 签字日期:2 i ,矿7 年】,月弓1 日 天津大学硕士学位论文 1 1 研究背景及意义 第一章绪论 第章绪论 1 1 1 研究背景 数据挖掘定义为从数据中抽取隐含的、以前未知的和潜在有用模式的非平凡 过程【2 5 】。近年来,数据挖掘作为一种现代重要的数据增值服务技术正在各行各 业中受到广泛的关注和应用,如生物信息学、商业智能和电子政务等。然而,一 些因素却制约着数据挖掘技术的进一一步发展,主要体现在以下方面: 1 数据挖掘算法选择和参数设置的非平凡性: 2 数据挖掘软件安装及使用的复杂性: 3 数据挖掘对计算机运算性能的要求越来越高: 4 数据的安全性及隐私保护问题; 5 数据挖掘资源的共享: 为了解决数据挖掘发展遇到的瓶颈,需要一种便于分布式资源访问、知识共 享与集成,并具有高安全性的架构模型。网格计算的出现为数据挖掘提供了直接 可靠的支持平台。 网格计算【l 】把整个互联网整合成一台巨大的超级计算机,实现了计算资源、 存储资源、数据资源、信息资源、知识资源、专家资源的全面共享。它使得虚拟 组织中( v i r t u a lo r g a n i z a t i o n :v o ) 的成员能够安全、透明的共享和存取分布的 资源。网格计算以其处理计算密集型和数据密集型资源的整合能力为数据挖掘提 供了空前的发展空间,正在成为数据挖掘的理想平台。但是,随着网格信息资源 不断地呈指数增长,用户如何更加有效地、实时地发现其所需的信息变得越来越 困难。鉴于以上原因,基于网格环境的服务推荐系统被提了出来。 本文提出的服务推荐系统是为b i l l i o n g r i d 平台而设计的,针对各类用户能 及时、有效地推荐符合其需求的数据挖掘w e b 服务。 1 1 2 研究意义 网格数据挖掘平台服务推荐系统的研究对数据挖掘技术未来的发展起到了 重要的推动作用,主要体现在以下方面: 1 网格数据挖掘平台服务推荐系统能够共享用户选择数据挖掘w e b 服务的 经验,针对用户特殊的需求进行相应的服务推荐,从而避免了用户在选 择数据挖掘算法时遇到的非平凡性问题: 2 网格数据挖掘平台服务推荐系统能够针对用户选择的数据挖掘w 曲服务 天津大学硕士学位论文第一章绪论 进行相应的算法参数分析与推荐,能有效地避免用户在设置数据挖掘算 法参数过程中遇到的非平凡性问题: 3 网格数据挖掘平台服务推荐系统大大缅化了用户发现符合其需求的数据 挖掘w e b 服务的过程,使得用户, 需输入算法的应用领域、任务或算法 的简单描述信息即可得到相应的服务匹配或推荐结果,提高了数据挖掘 任务的执行效率; 4 网格数据挖掘平台服务推荐系统可以极大地提高b i l l i o n g r i d 平台的易用 性,为用户推荐出符合其需求的数据挖掘w e b 服务并提供相应的算法参 数分析,从而吸引更多的用户来使用b i l l i o n g r i d 平台,提高该平台的知 名度和实际使用价值: 1 2 国内外研究现状 1 2 1 数据挖掘w e b 服务推荐的发展现状 w e b 服务【5 】是一个崭新的分布式计算模型,是w e b 上数据和信息集成的有 效机制。w e b 服务提供了一种在不同平台以及系统之间的软件应用层进行功能自 动整合、集成和自动化处理所需要的技术架构,其目的和作用是提供一种国际统 一的规范和技术,进行i n t e r n e t 上各种软件应用的统一功能描述和功能共享,为 功能整合、集成和信息交换处理提供实现基础。 随着w e b 服务技术的不断发展和完善,其在企业信息整合、电子商务、电 信等很多领域得到了应用,w e b 服务也变得更加多元化【3 2 1 。数据挖掘w e b 服务 将数据挖掘算法封装为w e b 服务,为分布式数据挖掘打下了良好的基础。目前, 国内外关于数据挖掘w e b 服务及其推荐的研究成果不是很丰富,典型实例如下: 1 m y c , r i d t 2 】是个生物信息学领域的信息环境建设项目,用于发现资源和 服务,以及在其上开发面向生物信息学应用的开源软件中间件。m y c , - r i d 提供了整个关于信息和服务基础架构,包括协同工作,可以看成是基于 w e b 服务的分布式知识管理系统。m y g r i d 生物信息服务本体基于 d a m l s 服务模型。m y g r i d 中使用一系列的本体来表示元数据的三个方 面,即描述、分类和约束。在m y g r i d 中,资源是可以静态或动态组合 在上下文中的服务。服务协作可以采用很多形式,在m y g r i d 中主要有 两种,即数据集成和工作流协作。服务描述分为两类:服务种类设计的 领域名和可调用服务实例的操作元数据。服务匹配则首先针对域进行匹 配,然后是操作的属性。 2 d i s c o v e r yn “2 l j 是英国帝国大学开发的分布式知识发现平台。该系统建 2 天津大学硕士学位论文第一章绪论 立在g l o b u s 之上,专注于高性能挖掘算法和工作流发现工具的开发,提 供基于网格的知识发现服务。然而由于没有区分具体的工作流和抽象的 工作流,该系统缺乏对动态资源的管理。 3 b a a q :b i o i n f o m l a t i c s a s ka n yq u e s t i o n s t 3 1 是一个由日本原子力研究机 构和奈良先端科学技术大学联合开发的基于网格的生物信息学集成平 台。在这个平台上,生物信息学家获取公共的生物数据开发库和分析工 具只需简单的用鼠标拖动相应的图标即可,而无需关注数据库和分析工 具在节点中的具体位置。同时,生物学家在构建分析流程时,相应的主 动服务就会被触发,来帮助他们快速的做出决策。系统会自动提供相应 的可视化工具来帮助用户分析运行的结果。 4 w e k a 4 w s t l 9 l 是由c a l a b r i a 大学开发的框架,它扩展了广泛使用的w e k a t o o l k i t ,支持网格环境中分布式数据挖掘。在w e k a 中算法只能在本地 执行,而w e k a 4 w s 利用网格w e b 服务扩展了w e k a 来支持数据挖掘算 法的远程执行。这样,数据挖掘任务就可以在分布的网格节点上执行。 5 t y p e s t r y t l 8 】:是x e r o xp a r c 研究中心提出的一个研究型协同过滤推 荐系统,用于过滤电予邮件、推荐电子新闻。t y p e s t r y 系统提供电子 文档储存、用户评价存储和协同过滤推荐服务。在t y p e s t r y 系统中, 设计了一种类似于s q l 的查询语句t q l ( t a p e s t r yq u e r yl a n g u a g e ) ,用 户的查询请求中必须明确指出与自己兴趣爱好相似的其他用户。由于用 户之间必须了解对方的兴趣爱好,因此t y p e s t r y 推荐系统只适用于用 户集体比较小的场合。 6 g r o u p l e n s l 2 2 】:由m i t 开发的自动协作过滤推荐系统,用于新闻组信息 推荐。o r o u p l e l l s 系统通过用户的评分信息自动搜索用户的最近邻居, 然后根据最近邻居的评分信息产生最终的推荐结果,适合于用户数量比 较大的场合。g r o u p l e l l s 系统具有极好的开放性,用户可以通过 g r o u p l e n s 系统提供的a p i 函数向g r o u p l e n s 服务器提供评分信息,请 求推荐结果。同时,c r r o u p l e l l s 系统提供三种客户端工具e m a c sg n u s , n n 和n e w s w a t c h e r 以达到上述目的。 7 m o v i e l e n s t 2 5 】:是m i n n e s o t a 大学开发的研究型自动协同过滤推荐系统, 用于推荐电影。m o v i e l e n s 系统是一个基于w e b 的推荐系统,系统通过 浏览器的方式进行用户评分数据收集与推荐结果显示。 1 2 2 存在的问题 根据数据挖掘w e b 服务推荐的发展现状并结合本推荐系统的需求分析,可 3 天津大学硕士学位论文第一苹绪论 以总结出网格数据挖掘平台服务推荐系统有以下焦点问题需要解决: 1 有效推荐算法的选择问题 目前大多数的服务推荐系统均采用单一的推荐策略,例如:基于内容的推 荐方法、基于协同过滤的推荐方法或者基于关联规则的推荐方法。上述三种传统 的推荐方法在一定程度上均存在局限性。因此,选取何种推荐方法、如何弥补单 一推荐方法的缺陷,或者如何综合使用各种推荐方法使其相互弥补对方的缺点以 便更加协调、有效地为用户提供数据挖掘w e b 服务推荐便成了本课题需要解决 的关键问题之一。 2 推荐实时性与推荐质量间的平衡问题 许多服务推荐体系结构在保证实时性要求的同时,是以牺牲推荐系统的推荐 质量为前提的。因此,如何较好地解决推荐的时效性和推荐质量之间的矛盾也是 服务推荐系统体系结构设计方面亟待解决的问题。 3 服务的描述与搜集问题 现有的服务推荐系统在服务描述与搜集方面可谓百花齐放,并不存在统一的 标准。在b i l l i o n g r i d 平台中,数据挖掘算法是以w e b 服务的形式部署在各网格 节点上。因此,如何有效地对数据挖掘w e b 服务进行描述和搜集,以降低用户 使用该服务的难度并提高数据挖掘任务的执行效率是本系统须解决好的难题。 1 3 本文主要研究内容 本研究拟建立一个网格数据挖掘平台服务推荐系统。该服务推荐系统能够共 享用户使用数据挖掘算法的经验,及时、有效地推荐给用户符合其需求的数据挖 掘w e b 服务,简化用户发现适合自己的数据挖掘w e b 服务过程,最终达到提高 b i l l i o n g r i d 平台工作效率的目的。 首先,本文提出了网格数据挖掘平台服务推荐系统总体架构,主要包括以下 功能模块:推荐引擎模块、基于数据挖掘本体的服务查找模块、节点资源监视模 块以及数据传输模块,并在此基础上详细介绍了各功能模块的结构设计与实现机 制。网格数据挖掘平台服务推荐系统总体结构的划分依据是用户数据流的走向。 其次,详细介绍了数据挖掘本体的构建过程、基于数据挖掘本体的语义查找 功能的实现和数据挖掘w e b 服务的调用流程。 最后,分别重点论述了本系统中基于关联规则推荐方法与基于协同过滤推荐 方法的实现过程和算法流程。 4 天津大学硕士学位论文 1 4 本文的章节组织 第一章绪论 本文的章节组织如下: 第一章绪论,概要件的描述本文的研究背景、研究意义、国内外研究现状、 需要解决的问题以及本文的主要研究内容。 第二章相关技术综述。主要介绍推荐系统、网格计算和本体等相关概念与 技术。 第三章网格数据挖掘平台服务推荐系统。主要针对系统总体架构设计进行 说明,并对系统各功能模块的设计和实现进行了详细讨论。 第四章数据挖掘本体的设计与实现。研究数据挖掘本体的设计与实现,在 此基础上描述b i l l i o n g r i d 平台中的数据挖掘w e b 服务,进而提供语义查找和服 务调用功能。 第五章基于关联规则推荐方法的设计与实现。详细介绍本系统中基于关联 规则推荐方法的实现机制和算法流程。 第六章基于协同过滤推荐方法的设计与实现。详细介绍本系统中基于协同 过滤推荐方法的实现机制和算法流程。 第七章总结与展望。对论文工作进行总结,并对今后研究做出展望。 天津大学硕士学位论文 2 1 推荐系统 第二章相关技术综述 第二章相关技术综述 2 1 1 推荐系统定义 推荐系统【4 6 1 的起源可以一直追溯到认知科学、概率理论、预测理论、信息 检索等领域,到2 0 世纪9 0 年代中期逐步发展为一个独立的研究领域。随着网络 技术的不断发展,i m e m e t 为j h j 户提供越来越多信息的同时,网络结构也变得愈 加复杂。用户如何有效地、实时地发现所需要的信息也变得越来越困难。基于以 上原因,从2 0 世纪9 0 年代中期起,推荐系统的概念应运而生。但推荐系统发展 到现在还没有一个统一而精确的定义,在不同的应用领域其概念也各不相同。例 如:1 9 9 7 年,r e s n i c k 和v a r i a n 9 】给出了电子商务推荐系统的定义,指利用电子 商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销 售人员帮助客户完成购买过程。 b i l l i o n g r i d 平台定义的推荐系统是指收集和统计用户使用数据挖掘算法的 记录,通过使用相关推荐技术进行数据挖掘w e b 服务推荐。它基于用户以往的 爱好,提供个性化的建议,以帮助用户做出合适的选择。 2 1 2 推荐系统分类 总的来说,目前的推荐系统主要可分为三大类【4 6 】:基于规则的推荐系统、 基于内容的信息过滤推荐系统和协同过滤推荐系统,分别介绍如下: 1 基于规则的推荐系统 4 6 】中定义了许多的规则,由规则来决定不同情况下 如何提供不同的服务,也即系统利用规则来推荐信息。因此,推荐的质 量也就依赖于规则的质量和数量。 2 基于内容的信息过滤【4 6 】是信息检索领域的重要研究内容。基于内容过滤 的推荐系统需要分析资源内容信息,根据用户兴趣度来建立用户档案, 并提取为特征向量,然后根据资源内容与用户档案之间的相似性向用户 提供服务。 3 在推荐系统中,协同过滤 4 6 】是应用最为成功的技术。它通过比较当前用 户与其他用户兴趣向量的相似度计算出用户间的相似度,生成与当前用 户行为兴趣最相近的用户集,将他们最感兴趣的项作为当前用户的推荐 结果。 6 律 j 岸女 2 1 3 推荐系统应用领域 推荐系统1 在1 9 9 7 年之前一直被称作协作过滤系统,丰要用于信息过滤, 如电子邮件的过滤、新闻文章的过滤等。1 9 9 7 年以后推荐系统被引入一个新 的应用领域- 电子商务。除了可以应用于信息过滤领域和电子商务领域之外, 推荐系统还可以应用到许多其他领域,如社会网,大众传媒等。目前大多数的推 荐系统主要应用于电子商务领域。 2 2 网格计算 2 2 1 网格计算概述 网格( g r i d ) | l 】是一个集成的计算与资源斟、境,或者说是个计算资源他, 同格能够充分吸纳各种计算资源,并将它们转化成一种随址可得的、可靠的、标 准的同时还是经济的计算能力。戈于阿格计算的定义有很多,影响力最大的当属 l a nf o s t e r 给出的:网格计算就是在动态变化的、拥有多个部门或者团体的复杂 虚拟组织内,灵活、安全的协同资源共享与问题求解。所谓虚拟组织就是一些个 人、组纵或者资源的动卷组合。这一概念强调的是网格足为虚拟组纵服务的,而 且网格必颁具备动态、协同资源共享的特点。 有了网格计算技术,用户可以将服务器、存储系统和网络联合在一起,组成 一个大的系统,从而为用户提供功能强大的多系统资源来处理特定的任务, 2 2 2 网格体系结构 网格体系结构是关于如何构建网格的结构标准。到目前为止比较公认的网 格体系结构是在以i b m 为代表的工业界的影响下,l a n f o s t e r 等结合w e b 服务提 出的开放网格服务架构o g s a ( o p 翩g r i d s e r v i c e s a r e m t e c m r e ) 旧。 开放网格服务架构o g s a 是目前最新的一种阿格体系结构,被称为是下一 代的阿格结构其体系结构川如图2 - 1 。 一一一 x 律 学 位论z 2 2 3 网格中间件g l o b u st o o l k i t g l o b u s 项目1 ”是美国a r g o n n e 国家实验室的研发项目。g l o b u s 项目对任务管 理,信息安辛、资源管理、数姑管理等网格计算的关键技术进行了研究开发出 能在多种平台上运行的l 叫格中间件g l o b u st o o l k i t ,能够用来帮助规划和组建 型的网格试验和应用平台,开发适合大型网格系统运行的大型应用程序。 g l o l m s t o o l k i t 最新稳定版本是4 2 1 ,其功能组件如图2 - 2 1 4 1 。 , _ 一一 !。 ( a t j o n 0 a 缸 。1 j 二h 4 9 ”二;j 二i t :r 一” 圉固墓 i :凳冀:i ! 孑| | 。善宅;慧,i i 芝:嚣 m 9 1 : 签i 曰圈 n 。 l l _ 一一“、”一+ 2j 拳 。7r , 。l 。:器离 圈2 - 2 g t 4 功能组件 s e c m t y l 4 i :主要负责解决本地安全集成、安全身份映射、安全访问,认证, 安全联盟以及信任管理等方面的问题。 d a t am a n a g e m e n t i 4 】:包括数据存储库大小、资源的地城分布、安全需求、 复制及缓存设备模式以及用于存储和数据访问的潜在技术。 e x e c u t i o nm a n a g e m e n t i “i - 主要处理执行项目的初始化、监控、管理、时间 计划以及它们之间的协调操作。 i n f o l t n 枷o ns e r “c e 一2 4 】:它更多地- 与m o n i t o f i n za n d d i s c o v e r ys e r v i c e s 相关, 包括在虚拟组织中的监控和发现资源。 c o m m o n r u a t i m e “1 提供一组最基本的工具用来构建w e bs e r v i c e 和非w e b s e r v i c e 。 2 3 本体 2 3 1 本体概述 本体( o n t o l o g y ) 的概念摄初起源于哲学领域,可以追溯到公元前古希腊 哲学家亚早士多德。本体在哲学中的定义是“对世界上客观存在事物的系统地描 鲤 鲺 天津大学硕士学位论文第二章相关技术综述 述,即存在论”,是客观存在的一个系统的解释或说明。 近年来,本体已经远远超过了哲学的领域范畴。在人工智能界,最早给出本 体定义的是n e c h e s l 9 】等人,他们将本体定义为“给出构成相关领域词汇的基本术 语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。 后来在信息系统、知识系统等领域,越来越多的人开始研究本体,并给出了许多 不同的定义。其中最著名并被引用得最为广泛的定义是由g r u b e r 提出的,“本体 是概念化的明确的形式化规范” 1 0 1 。 本体可以应用于很多方面,s o e r g e l 1 1 】详细介绍了本体的主要功能,例如: 给出单一领域和多个领域间关系的语义线路图、辅助信息检索等。 2 3 2 本体形式化描述 本体1 1 2 】主要包括概念( c o n c e p t s ) 、关系( r e l a t i o n s ) 、实例( i n s t a n c e s ) 以及 公理( a x i o m s ) ,可表示为o = c ,1 ki ,a o 。其中,c 表示概念集合,用c 表示概 念( c c ) ;r 表示关系集合,用r 表示关系( r er ) ;符号i 表示实例集,用i 表示实例( i i ) 。a o 表示公理的集合。 唐杰等在文献f 2 叼中简单解释了上面的形式化描述。概念表示特定领域中的 一类事物,每个概念可以用属性分别描述其不同方面的特点。关系描述了概念之 问或者属性之问的关系。关系可以分为两类:分类关系和连接关系。分类关系表 示概念与概念之间的层次关系;连接关系表示除了上下位层次关系以外的其它关 系。实例是概念所表示的事物。公理用来表示概念或者实例的约束。 2 3 3 本体描述语言o w l o w l ( w e b o n t o l o g yl a n g u a g e ) 【1 4 】建立在一些已有的技术之上,因此在介绍 o w l 之前我先简单的做一些铺垫。 r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 0 5 是描述数据语义的基础。它定义 了描述资源以及陈述事实的基本方式:主语、谓语、宾语的三元组。如图2 - 3 1 6 1 , 这是r d f 陈述的一个简单例子。在这个例子中,主语是 h t t p :w w w e x a m p l e o r i n d e x h t m l ,谓语h t t p :p u r l o 叫d c e l e m e n t s 1 1 c r e a t o r ,宾 语h t t p :w w w e x a m p l e o r g s t a f f i d 8 5 7 4 0 。 l 忡一 9 天津大学硕士学位论文第二章相笑技术综述 r d fs c h e m a 1 6 1 是一种r d f 词汇描述语言,在r d f 之上定义了一个最小的 语义模型( 词汇集) 支持复杂词汇的建模,包括r e s o u r c e ,c l a s s ,p r o p e r t y , s u b c l a s s o f , r a n g e ,d o m a i n 等基本元素。由于r d fs c h e m a 不能为我们提供丰富 的语义信息,因此导致了o w l 的出现。 o w l 是w 3 c 提出的一种本体描述语言。o w l 源自于d a m l + o i l 【1 7 j , d a m l + o i l 也是一种本体描述语言。o w l 保持了d a 地+ o i l 的框架和大多 数语法、语义特征,同时针对不同的应用范围做了扩充和限制,形成了三个子语 言:o w lf u l l ,o w ld l 和o w l l i t e 。 o w l f u l l l l 7 】:提供最丰富的表达能力和最大的r d f 语法自由度,支持o w l 的全部语法结构,但没有可计算性保证。 o w ld l t l 7 】:处于f u l l 与l i t e 中间,兼顾表达能力和可计算性。 o w ll i t e i l :o w ll i t e 提供最小的表达能力和最强的语义约束,适用于只 需要层次式分类结构和少量约束的本体。 2 4 本章小结 本章主要介绍了网格数据挖掘平台服务推荐系统在研发过程中采用的各种 技术和工具,主要包括:推荐系统的相关知识、网格体系结构、网格中间件g l o b u s t o o l k i t 以及本体描述语言o w l 。 1 0 天津大学硕士学位论文第三章网格数据挖掘平台服务推荐系统 第三章网格数据挖掘平台服务推荐系统 3 1 系统总体设计 网格数据挖掘平台服务推荐系统的研发目标是使得b i l l i o n g r i d 平台用户能 够及时、有效地获取所需要的数据挖掘w e b 服务,对其数据进行处理,从而使 用户得到满意的挖掘结果。该服务推荐系统能够共享其他用户选择数据挖掘w e b 服务的经验,推荐给用户需要的服务,简化了用户发现适合自己的数据挖掘w e b 服务的过程,同时也降低了b i l l i o n g r i d 平台的使用难度。 网格数据挖掘平台服务推荐系统的设计原则包括: 1 易用性。b i l l i o n g r i d 平台的用户大部分是某个领域的专家,这些领域专 家通常关注的是自己领域的任务,而他们往往对数据挖掘w e b 服务,网 格等相关知识知之甚少。因此,需要提供给用户一个易于使用、透明的 数据挖掘平台,在这个平台上用户不需要了解技术细节就能使用适合的 数据挖掘w e b 服务去分析、处理各自的任务。该服务推荐系统就提供了 这样_ 个功能,通过本体语义查找或推荐引擎,使得用户在使用 b i l l i o n g r i d 平台的过程中不必为不了解相关知识而苦恼,同时使得数据 挖掘算法使用经验得以共享,为新用户选择数据挖掘w e b 服务提供决策 支持,从而达到了提高b i l l i o n g r i d 平台易用性的目的。 2 标准性。为了充分发挥现有网格服务的潜能,该推荐系统建立在o g s a 之上,符合网格体系结构标准。这无疑会有助于高层应用开发与资源共 享。同时,对数据挖掘w e b 服务的描述也采用了现在公认的w s d l ( w e b s e r v i c e sd e f i n i t i o nl a n g u a g e ) 标准。w s d l 是一个建议性标准,用于描 述w e b 服务的技术调用语法。因此,该服务推荐系统无论从体系结构方 面还是数据挖掘w e b 服务描述、部署以及调用方面都结合了目前的标准。 3 可扩展性。随着用户研究内容、领域及任务的不断变化,数据挖掘w e b 服务的不断增多,b i l l i o n g r i d 平台需要提供新的数据挖掘w e b 服务描述 以满足用户需求。由于本推荐系统对数据挖掘算法的描述、部署、调用 过程全部采用统一的国际公认的标准。因此对于新加入的数据挖掘算法, 能很快地将该算法封装为w e b 服务并部署到网格节点上。同时,对于数 据挖掘本体文件信息的添加采用文件流的方式也能非常方便地将新数据 挖掘w e b 服务本体描述信息准确加入进去。因此,本推荐系统的设计满 足了b i l l i o n g r i d 平台对扩展性的需求。 基于以上原则,本文提出了一个网格数据挖掘平台服务推荐系统体系架构, 如图3 1 所示。 萋r * 联规则推荐髓块 基于协同过滤推荐模块 推荐引颦礁块 信麟“ 喇f 雅务查找,推荐i 视化模块 n 点谘潭监视模 坡【r m d s 懂堍1 点靛现 模块 数据库一 第= h 精m * 掘十e m * # # & 服务往册模块 蝰于数据挖掘本体 的服务查找 丰j l 块 数帮传输横块 f c m d f t p 模块1 啦据挖掘w c b 服务# 愀 信崽写八 横块 图3 - 1 阿格数据挖掘平台服务推荐系统体系架构 该体系架构由不同模块组成,包括:用户接口模块、推荐引擎模块、基于数 据挖掘本体的服务查找模块、节点发现模块、节点资踩监视模块( 1 m d s 模块) 、 服务查找推荐可视化模块、数据传输模块( c , r i d f f p 模块) 、数据挖掘w e b 服务 模块、信息写入模块、信息提取模块以及服务注册模块。下丽将分别对以上模块 进行介绍。 天津大学硕士学位论文 3 2 推荐引擎模块 第三章网格数据挖掘平台服务推荐系统 推荐引擎模块是整个服务推荐系统的核心模块,主要包含两个子模块,即: 基于关联规则推荐模块和基于协同过滤推荐模块,通过两个模块的相互配合最终 向用户做 h 推荐。考虑到基于协同过滤推荐方法的推荐范围、推荐精度等特点, 再加之该推荐方法是当前研究的差流而且协同过滤系统有时可以产生一些令人 意想不到的推荐结果,因此本模块制定了以基于协同过滤的推荐方法为主要特 色,而基于关联规则推荐方法为辅的基本原则。基于协同过滤与关联规则的推荐 方法将分别在以下章节详细介绍。 本模块的创新点主要集中在以下两个方面: 1 引入了两种推荐方法,从向有效地克服了单一推荐方法的缺点。传统的 推荐策略般只选取一种推荐方法或对该方法进行相应的改进后为用户 做出推荐,但并不能完全克服其选择的推荐方法的缺陷。所以,目前流 行的推荐策略都是基于多种推荐技术,通过引入多种推荐方法来为用户 做m 更加准确的推荐。在本推荐引擎中,由于系统运行初期用户对数据 挖掘w e b 服务的评价信息严重一i 足,所以基于协同过滤推荐方法无法准 确为用户做出推荐。此时,用户可以使用基于关联规则的推荐方法来弥 补协同过滤推荐方法的不足。随着b i l l i o n g r i d 平台用户的不断增多,用 户对数据挖掘w e b 服务的评价信息也愈加真实和具体,基于协同过滤推 荐方法的推荐精度将会越来越高,将会弥补基于关联规则推荐精度不高 的缺点。另一方面,基于协同过滤推荐方法的新用户问题也可以通过基 于关联规则推荐方法使其得到解决。由于b i l l i o n g r i d 平台新用户没有使 用过部署在各节点上的数据挖掘w e b 服务,也就不存在该用户的评价信 息,此时便无法针对该用户使用协同过滤推荐。而基于关联规则的推荐 方法因为是对所有用户使用数据挖掘算法记录进行分析,所以不会受到 新用户问题限制,也

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论