(教育技术学专业论文)基于本体的语义索引策略研究.pdf_第1页
(教育技术学专业论文)基于本体的语义索引策略研究.pdf_第2页
(教育技术学专业论文)基于本体的语义索引策略研究.pdf_第3页
(教育技术学专业论文)基于本体的语义索引策略研究.pdf_第4页
(教育技术学专业论文)基于本体的语义索引策略研究.pdf_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i n t e r n e t 的迅猛发展,w w w 已经发展成为包含多种信息资源、站点遍布全球的巨 大的动态信息服务网站,为用户提供了一个极具价值的信息源。而传统的信息检索技术由 于对这些信息的语义理解有限,越来越不能满足用户的检索需求。语义检索作为一种基于 语义理解的信息检索方法,已成为信息检索研究的重点。本体作为解决语义层次上w e b 信 息共享和交换的基础,语义检索对其具有很强的依赖性。目前对基于本体的语义检索研究, 未考虑本体中没有可用的知识对系统检索性能的影响。在本体的利用上,没能充分利用本 体中的概念关系,影响了对文档语义理解的准确性。 针对以上的这些问题,本论文结合了传统的关键字索引和语义索引方法,在概念一文 档权重的基础上对本体概念的部分关系权重进行扩展,提出一种基于本体的语义索引策 略。 本文的主要内容是: 第一章绪论,简单介绍了本文的选题背景及意义,总结了语义检索的研究现状,分析 了其存在的问题,说明了本文的研究内容和组织结构。 第二章是相关知识概述。本章分为四部分,第一节从信息检索的发展、信息检索的基 本定义、信息检索的分类、信息检索模型的分类这四方面对信息检索进行概述。第二节介 绍了语义网的结构以及本体的概念、功能、分类和本体的描述语言及其构建工具。第三节 和第四节主要对索引和语义索引进行了介绍。 第三章是c + + 课题本体的语义索引策略研究。从c + + 课题本体的语义索引的设计思路, c + + 课题本体的建立、向量空间模型、语义信息的处理和权重的计算方法等方面进行论述并 提出基于本体的语义索引策略。 第四章实验测试。基于第三章提出c + + 课题本体的语义索引策略进行实验测试,完成 分词和索引实验,验证了索引策略的有效性。 第五章是对全文的研究工作的总结。分析了本文研究工作的不足和待改进的地方,并 对下一步的工作前景进行了展望。 总之,随着语义网技术的不断发展,语义检索这一新事物将是信息检索的未来的发展 方向。语义检索最终将超越对字面匹配的检索和对字段的检索,从而真正实现用户对知识 的检索。 关键词:本体:语义;索引;语义索引 a b s t r a c t w i t ht h er a p i dg r o w t ho fi n t e m e t ,w o r l dw i d ew e b ( w w w ) h a sb e c o m ea 1 1e n o r m o u s , d y n a m i ci n f o r m a t i o ns e r v i c en e t w o r kw i t hm u l t i p l ei n f o r m a t i o nr e s o u r c e sa n dw o r l d w i d es i t e s t r a d i t i o n a li n f o r m a t i o nr e t r i e v a lt e c h n o l o g i e sc a nn o tm e e tt h en e e df o rb e t t e ru n d e r s t a n d i n ga n d p r o c e s s i n gi n f o r m a t i o no ns e m a n t i cl e v e l h o w e v e r , b a s e do ns e m a n t i cu n d e r s t a n d i n g ,s e m a n t i c r e t r i e v a lh a sb e c o m eah o tt o p i c o n t o l o g y , a st h eb a s i co fw e bi n f o r m a t i o ns h a r i n ga n d e x c h a n g i n go nt h es e m a n t i cl e v e l ,p l a y s ak e yr o l ei ns e m a n t i cr e t r i e v a l a tp r e s e n t ,m o s t r e s e a r c h e so fs e m a n t i cr e t r i e v a l - b a s e do n t o l o g ya s s u m eo n t o l o g yc o n t a i n sa l lk n o w l e d g e ,a n d h a v en o tc o n s i d e r e dt h ei m p a c to nh a v i n gn oa v a i l a b l ed o m a i no n t o l o g yo ni n f o r m a t i o nr e t r i e v a l p e r f o r m a n c e i na d d i t i o n t h e yh a v en o tm a d ef u l lu s eo ft h er e l a t i o n so fc o n c e p t si nd o m a i n o n t o l o g y t os o l v et h e s ep r o b l e m s ,t h i sp a p e rc o m b i n e st r a d i t i o n a lk e y w o r di n d e x i n ga n ds e m a n t i c i n d e x i n gm e t h o d ,a n de x t e n dt h ew e i g h to fp a r to ft h er e l a t i o n s h i po f t h eo n t o l o g yt h eb a s e do n t h ew e i g h to ft h ec o n c e p t - d o c u m e n tp r o p o s e sao n t o l o g y - b a s e ds e m a n t i ci n d e x i n gs t r a t e g y n l em a i nc o n t e n t sa r e : t h ef i r s tc h a p t e ri si n t r o d u c t i o n , b r i e f l y i n t r o d u c e st h er e s e a r c hb a c k g r o u n da n d s i g n i f i c a n c eo ft h i sp a p e r ,a n ds u m m a r i z e st h er e s e a r c hs t a t u so fs e m a n t i cr e t r i e v a l ,a n da n a l y s e s i t sp r o b l e m s ,a n di l l u s t r a t e st h ec o n t e n ta n do r g a n i z a t i o n a ls t r u c t u r e c h a p t e r2i sa l lo v e r v i e wo fr e l e v a n tk n o w l e d g e t h i sc h a p t e ri sd i v i d e di n t of o u rs e c t i o n s s e c t i o n1 ,t h r o u g ht h ed e v e l o p m e n to ft h ei n f o r m a t i o nr e t r i e v a l ,t h eb a s i cd e f i n i t i o no ft h e i n f o r m a t i o nr e t r i e v a l ,t h ec l a s s i f i c a t i o no ft h ei n f o r m a t i o nr e t r i e v a l ,t h ec l a s s i f i c a t i o no ft h e i n f l o n n a t i o nr e t r i e v a lm o d e l ,t h ef o u rf a c em a k ea l lo v e r v i e wo fi n f o r m a t i o nr e t r i e v a l s e c t i o n2 d e s c r i b e st h es t r u c t u r eo ft h es e m a n t i cw e ba n dt h ec o n c e p to ft h eo n t o l o g y , t h ef u n c t i o no ft h e o n t o l o g y , t h ec l a s s i f i c a t i o no ft h eo n t o l o g ya n dt h ed e s c r i p t i o nl a n g u a g e st h eo n t o l o g ya n db u i l d t o o l st h eo n t o l o g y s e c t i o n3a n d4m a i n l yi n t r o d u c e si n d e xa n ds e m a n t i ci n d e x i n g c h a p t e r3i s t h es e m a n t i ci n d e x i n gs t r a t e g yo ft h eo n t o l o g yo fc + + i s s u e s f r o mt h e d e s i g n i n go ft h es e m a n t i ci n d e x i n gs t r a t e g yo nt h eo n t o l o g yo fc + + i s s u e ,t h eb u i l d i n go f t h e c + + o n t o l o g y , t h ev e c t o rs p a c em o d e l ,s e m a n t i ci n f o r m a t i o np r o c e s s i n ga n dt h ec a l c u l a t i o no f w e i g h tt h i sf o u ra s p e c t sd i s c u s s e sa n dp r o p o s e so n t o l o g y - b a s e ds e m a n t i ci n d e x i n gs t r a t e g y c h a p t e r4i se x p e r i m e n t a lt e s t t h i sc h a p t e rt e s t so n t o l o g i es e m a n t i ci n d e x i n gs t r a t e g i e so f t h e t h i r dc h a p t e ro nt h es e m a n t i ci n d e x i n gs t r a t e g yo nt h eo n t o l o g yo fc + + i s s u e ,a n d c o m p l e t e s t h ee x p e r i m e n t so fs e g m e n t a t i o na n di n d e x i n gt ot e s tt h ev a l i d i t yo ft h ei n d e xs t r a t e g y n c h a p t e r5s u m m a r i z e st h ef u l lp a p e r t h i sc h a p t e ra n a l y z e si t ss h o r t c o m i n g sa n da r e a sf o r i m p r o v e m e n t ,a n df o r w o r d st h ef u t u r eo fw o r k a n y h o w , a st h ec o n t i n u o u sd e v e l o p m e n to fs e m a n t i cw e bt e c h n o l o g y , s e m a n t i cr e t r i e v a la s an e wt h i n gw i l lb et h ef u t u r ed e v e l o p m e n to fi n f o r m a t i o nr e t r i e v a l t h es e m a n t i cr e t r i e v a lw i l l e v e n t u a l l yt r a n s c e n d i n gt h er e t r i e v a ll i t e r a l l y , a n dr e a l i z et h er e a lk n o w l e d g er e t r i e v a lo fu s e r s k e y w o r d s :o n t o l o g y ;s e m a n t i c s ;i n d e x ;s e m a n t i ci n d e x i n g 1 1 1 目录 摘要i a b s t r a c t 目录i v 1 绪论1 1 1 选题背景和意义。1 1 1 1 选题背景1 1 1 2 选题意义1 1 2 相关研究现状2 1 3 论文的研究方法3 1 4 论文组织结构3 1 5 论文创新点4 2 相关知识概述5 2 1 信息检索概述5 2 1 1 信息检索的发展5 2 1 2 信息检索的基本定义5 2 1 3 信息检索的分类6 2 1 4 信息检索模型的分类7 2 2 语义网和本体的概述8 2 2 1 语义网。8 2 2 2 本体的概念1 0 2 2 3 本体的分类l o 2 2 4 本体的功能l l 2 2 5o w l 介绍12 2 2 6 本体构建工具1 3 2 3 索弓l 15 2 3 1 索引的概念1 5 2 3 2 索引的特点15 2 3 3 索引的优点15 2 3 4 索引的缺点15 2 3 5 索引分类1 6 2 4 语j ;之索i ;i 16 3c + + 课程本体的语义索引策略研究1 8 3 1c + + 课程本体的语义索引的设计思路1 8 3 2c + + 课程本体的建立。18 i v 3 3 向量空间模型。1 9 3 4 语义信息的处理。1 9 3 4 1 信息的预处理。2 0 3 4 2 分词2 0 3 4 2 1 分词技术的难点2 0 3 4 2 1 分词算法分类。2 l 3 4 3 关键词提取2 l 3 5 权值的计算方法2 2 3 5 1 布尔权重2 2 3 5 2 特征频度2 2 3 5 3t f i d f 权重2 3 3 6 基于本体的语义索引策略研究2 3 3 6 1 概念一文档权重。2 4 3 6 2 语义关系权重。2 4 3 6 3 基于概念一文档的部分语义关系扩展权重2 5 4 实验测试。2 6 4 1 实验:【具2 6 4 1 1 实验平台和工具2 6 4 1 2 分词与关键词处理工具i c t c l a s 。2 6 4 1 3 索引工具l u c e n e 2 7 4 2 实验:1 8 4 2 1 分词和词性标注2 8 4 2 1 关键词提取2 9 4 2 3 实验数据2 9 4 2 4 索引的建立3 1 5 总结与展望3 3 5 1 本文工作总结3 3 5 2 展望3 3 参考文献3 5 攻读硕士学位期间发表的论文3 8 参与科研项目3 8 致谢3 9 v 1 1 选题背景和意义 1 1 1 选题背景 1 绪论 近年来,随着信息社会的进步,i n t e r n e t 的迅猛发展,w e b 已经发展成为全球最大的 信息源,这些都在每时每刻地影响着人们的工作和生活。这也导致了人们日常要时时面对 的各种信息,如音乐、电影、报纸、杂志等,也越来越多地以数字化的形式展现在人们的 面前。 与传统的信息资源相区别,w e b 信息资源的特点如下:( 1 ) 信息资源丰富,内容呈现 多样性。信息的表现形式多种多样。( 2 ) 信息之间的交互性和关联性。( 3 ) 信息的局部有 序与整体无序。面对以上的特点,人们常常会陷入窘迫的境地:一方面与传统的封闭式信 息系统相比,w e b 为用户提供了一个开放的信息资源共享平台,人们能全范围发布和共享 信息资源;另一方面是信息迷失,人们难于找到自己真正所需的信息。如何快速、高效地 检索和访问各领域的信息资源已经成为一个重要的急需解决的问题。 搜索引擎技术的成熟,为网民提供了快速信息获取和网络信息导航。目前著名的搜索 引擎包括谷歌、百度和雅虎等。可以说,是搜索引擎让互联网的潜力得到了充分发挥。但 是,以上主流搜索引擎得检索技术均以关键词检索为主。可以说,是搜索引擎让互联网的 潜力得到了充分发挥。但随着网民对搜索引擎的依赖程度越来越高,满意度却越来越低。 主要表现在羽: ( 1 ) 通常情况下,很难通过几个简单的关键词来准确地表达用户的检索需求,更无 法体现语义信息,因此导致了检索结果难尽人意; ( 2 ) 对查全率的片面要求导致了检索结果的数量过于庞大,用户根本没有时和精力 处理检索到的所有结果。 语义网的提出为信息检索提供了新的思路。其中,在语义检索中,语义索引的设计和 应用是语义信息检索的前提和关键。 1 1 2 选题意义 信息检索的任务是根据用户提交的关键词在文档集中为用户检出最相关的子文档集, 或者按检出的文档与关键词的相关程度进行排序,作为对检索用户所提出查询的回应。目 前的信息检索系统已经能够为用户提供大量的检索结果,初步解决了“查到 的问题。一 个信息检索系统组成较为复杂,影响信息检索系统的性能因素较多。其中,索引策略作为 一个重要组成部分,对实现语义检索,提高查准率和查全率有至关重要的作用。因此,从 语义的角度研究信息索引技术具有重要的理论和现实意义。 1 2 相关研究现状 语义w e b 一经提出就引起学术界的广泛重视,短短几年已取得了很大的发展。目前, 语义w e b 是互联网的发展方向。它引起了全世界的关注,成为全世界的研究热点。 1 国外研究现状 1 9 9 8 年万维网的奠基人t i mb e r n e r s - l e e 首次提出了语义w e b 的概念。在国外,语义 网的研究相对较早。其应用有:a d o b e 的可扩充元数据平台,w 3 p h o t o 等用于生产语义数 据,s e m a v i e w ss h e r p a 语义日程表等等。 针对语义网的研究和应用很多,其中比较重要的基于本体的项目有口5 1 : ( 1 ) e n t e r p r i s e :是英国政府创建的和企业相关的定义和术语的集合,目的是为了 促进知识的系统在企业建模中的应用。项目的重点是:使用信息技术的相关策略对企业的 管理方式进行改革。主要应用在u n il e v e r 、i b m 、l l o y d 和a i a i 。 ( 2 ) t o v e ( t o r o n t ov i r t u a le n t e r p r i s e ) :关注的是企业建模、并行工程和集成供 应链管理。t o v e 按照企业提供一个完整的共享的词汇表并用p r o l o g 公理给予这些词汇精 确的语义,同时给出了术语和概念的图形化表示。主要应用在一个计算机制造企业和一个 宇航公司。w w w e i1 u t o r o n t o c a t o v e o n t o t o c h t m l ( 3 ) o n t o w e b ( o n t o l o g y b a s e di n f o r m a t i o ne x c h a n g ef o rk n o w l e d g em a n a g e m e n t a n de l e c t r o n i cc o m m e r c e ) :是欧盟自2 0 0 1 年就支持的一个主题项目,主要面向基于本 体的知识管理和电子商务的信息交换。其目的是加强学科之间和学术界与工业的联系,加 强欧洲对语义w e b 的影响力度。( h t t p :w w w o n t o w e b o r g ) ( 4 ) c y e , 是删c 在奥斯丁的一个项目,对多个领域应用开发的本体提供常识推理的 基础。c y c 中的知识是用一阶逻辑语言c y c l ( 一阶逻辑的变种) 进行地陈述式断言表示。知 识库包括简单断言、推理规则和推理控制规则。推理机可以从知识库中推理出新的断言。 其本体是组织成模块化的断言的集合。( h t t p :# w w w c y c c o m ) ( 5 ) 0 n t o k n o w l e d g e :是欧洲信息技术委员会i s t 计划的一个项目,其得到欧盟的基 金支持。此项目的目的是通过在各种信息中引入本体来提高大型分布式系统的知识管理能 力。o n t o k n o w l e d g e 的成果o i l 为本体语言提供了一个结构化视图。 ( b 主主卫;z 笪! ! :q 卫主q k 翌q ! ! 堡笪g 金:q g ) 2 国内研究现状 国内对语义w e b 的研究起步较晚,国内研究语义w e b 的相关研究有: ( 1 ) 武汉大学软件工程研究所所长何克清博士,主要对语义w e b 软构件、语义互联网 2 上的软构件工程、互操作性理论与测试方法和标准、本体元建模理论与方法、软件工程信 息知识网格的基础研究等方面进行研究。 ( 2 ) i b m 中国研究中心的潘越博士,目前的研究内容包括知识的表示和推理、信息检 索、自然语言处理等。 ( 3 ) 东南大学计算机科学与工程系教授瞿裕忠,其研究的主要内容是语义w e b 的关键 技术研究,属于国家自然科学基金项目。 另外,还有像史忠植教授,北大的张铭教授、宋炜博士等,在这里就不再一一说明, 都为国内的语义w e b 的研究都做出了巨大的贡献。但是,就我国基于语义w e b 的研究现状 来看,大多数还处于理论的研究阶段,在实际的应用中有相当大的局限性。 1 3 论文的研究方法 1 文献调研 在论文写作的前期,对与本体、索引和语义的相关文献进行收集、分类和整理。在论 文写作的过程中,对相关的资料进行补充。通过对文献的研读丰富论文的理论基础。 2 实验研究 对索引的算法进行实验研究,通过l u c e n e 3 0 ,e c l i p s e 3 2 等工具,对索引的策略进 行实验,并得出结果。 1 4 论文组织结构 全文共分为5 个章节: 第一章绪论,简单介绍了本文的选题背景及意义,总结了语义检索的研究现状,分析 了其存在的问题,说明了本文的研究内容和组织结构。 第二章是相关知识概述。本章分为四部分,第一节从信息检索的发展、信息检索的基 本定义、信息检索的分类、信息检索模型的分类这四方面对信息检索进行概述。第二节介 绍了语义网的结构以及本体的概念、功能、分类和本体的描述语言及其构建工具。第三节 和第四节主要对索引和语义索引进行了介绍。 第三章是c + + 课题本体的语义索引策略研究。从c + + 课题本体的语义索引的设计思路, c + + 课题本体的建立、向量空间模型、语义信息的处理和权重的计算方法等方面进行论述并 提出基于本体的语义索引策略。 第四章实验测试。基于第三章提出c + + 课题本体的语义索引策略进行实验测试,完成 分词和索引实验,验证了索引策略的有效性。 第五章是对全文的研究工作的总结。分析了本文研究工作的不足和待改进的地方,并 对下一步的工作前景进行了展望。 1 5 论文创新点 本论文的创新点是: 结合传统的关键字索引和语义索引方法,在概念一文档权重的基础上对本体概念的部 分关系权重进行扩展,提出一种基于本体的语义索引策略。 4 爹2 1 信息检索概述 2 1 1 信息检索的发展 2 相关知识概述 信息检索作为一项行为已有很长的历史,但是作为一个学科却始于2 0 世纪四十年代 末。1 9 4 9 年美国数学家c a l v i nw m o o e r s 首次提出“信息检索 这一概念。 信息检索是随着科学技术的不断发展和信息数量的成倍增长而发展起来的领域。随着 人类信息的生产能力的增强,已超过了人力对信息的组织、处理和吸收能力,信息检索的 战略地位就日益重要。 纵观信息检索的发展,可以分为三个大阶段:手工信息检索、机械信息检索和计算机信 息检索。其中计算机信息检索出现最晚,但发展也最为迅速。计算机信息检索起源于2 0 世纪5 0 年代初。1 9 5 4 年美国海军兵器中心图书馆i b m 7 0 1 机设计开发了计算机信息检索系 统,它标志着计算机信息检索阶段的开始。 而纵观计算机信息检索系统的发展,可以将其发展过程划分为如下三个阶段: 第一阶段:1 9 7 1 年以前建立的信息检索系统,其工作方式是传统的批处理检索方式, 这一阶段的数据存取与通信能力都比较差。 第二阶段:1 9 7 1 年以后,产生并发展了联机情报检索系统,如o c l c ,d i a l o g 在线数 据库联机检索系统。这一阶段的特点是联机数据库集中管理,具有完备的数据库联机检索 功能,但其数据通信能力还是较差。 第三阶段:以i n t e r n e t 的出现为标志,系统大多采用分布式的网络化管理,其信息 资源的主要特点是:数字形式表达,多媒体和多载体,内容覆盖全社会领域,分布无序, 难以规范化和结构化,内容特征抽取复杂,用户界面要求高。 2 1 2 信息检索的基本定义 基本定义是开展学科研究的基础,任何学科都离不开最基本的定义和定理,信息检索 领域也是如此。 ( 1 ) 文本( d o c u m e n t ) :被信息检索系统检索的对象。它一般是最简洁,最抽象的人类 记载知识的工具。在信息检索领域,文本往往是无结构的,即自然语言生成的文字,而不 是像数据库中的结构化数据。 ( 2 ) 查询向量( q u e r yv e c t o r ) :信息检索系统据以检索的对象。查询由用户生成,往 往也是用自然语言描述的用户信息需求。布尔模型之外的其他检索模型,把查询看成一个 文本,检索的过程也就是找到与查询文本最相关文本的过程。 ( 3 ) 文本集( d o c u m e n tc o r p u s ) :一定数目文本的集合。数据集对信息检索有特别的意 义,检索必须在一个有限的集合内进行。 ( 4 ) 相关度( s i m i l a r i t y ) :文本与查询相关程度的表示。相关度是文本满足用户需求 的性质,是一个很难准确定义的概念。对相同的文本,不同的人会有不同的相关度的判断, 即使是相同的人,在不同的时期,也会有不同的判断。不同的信息检索模型都会提出自己 的相关度定义。 ( 5 ) 排序( r a n k ) :检索结果往往是一个文本的列表。对大部分检索模型来说,这个列 表是经过相关度排序的,相关度高的文本最先呈现给用户。 2 1 3 信息检索的分类 依据不同的划分标准,信息检索可以有各种不同的分类。 ( 1 ) 依据检索范围的不同,可以将信息检索分为全文检索和字段检索。全文检索的 特点是不考虑查询请求与文本语义上的匹配,只把用户的查找请求和全文中的每一个词进 行比较,这种方式降低了查准率,但是可以保证查全率;字段检索就只对某些信息点进行 匹配,这种检索的性能取决于所使用的标识字段的方法以及用户对这种方法的理解,因此 具有很大的局限性,而且字段检索支持语义匹配的能力也较差。 ( 2 ) 依据截词方式的不同,可以将信息检索分为左截词、右截词、中间截词和左右 截词。左截词又称前方截词,要求词语的后端一致,词语的前方可以有变化;右截词是指 词语的前方一致,允许检索词尾部有一定的变化;中间截词要求词语的前后方都一致,允 许检索词中间有变化形式;而左右截词是要求词语中间的部分一致,但是检索词的前后方 允许有变化。 ( 3 ) 依据匹配方式的不同,可以将信息检索分为模糊匹配和精确匹配。模糊匹配是 指不论检索词出现在怎么样的位置上,只要出现该检索词就可以;精确匹配是指只有整个 字段都与检索词相同才算是匹配。 ( 4 ) 依据检索对象的不同,信息检索可以分为文本检索和多媒体检索。文本检索是 指基于文字的检索,它是最早也是最常见的信息表现形式,在信息检索研究中占有基础地 位:多媒体检索的对象包括图像、动画、音频和视频等等,但是,绝大多数多媒体检索系 统仍采取基于文本关键词( k e y w o r d ) 的搜索技术。 除了以上,还有布尔逻辑检索、限制检索、嵌套检索和邻接检索等等。从检索方法的 本质来看,以上的检索方式都属于关键字检索的范畴,基本上都是基于串匹配方式的检索。 在使用关键字检索时,总会遗漏很多相关的信息,同时会返回大量完全无关或者相关度不 高的“副产品 。 6 2 1 4 信息检索模型的分类 根据信息检索的用户任务的不同,信息检索模型可以分为两大类:检索模型和浏览模 型。而又因为检索文档内容和文档结构,而将信息检索模型进一步划分为内容模型和结构 模型训。 布尔、矢量( 向量空间) 和概率模型是三个传统的内容检索模型。布尔模型基于集合论, 是将文档和查询表示成索引项的集合。矢量模型基于代数理论,是用t 维空间中的一个矢 量来表示文档和查询。而概率模型则是基于概率理论的。 通常,将布尔模型作为是最基本的方法,但由于其不具备识别部分匹配的能力,所以 检索性能较差。有关概率模型与矢量模型相比较的讨论很多,但对于一般的集合,认为矢 量模型比概率模型的性能更好的观点在研究者、开发者占大多数。矢量模型的普及率很高, 在w e b 团体中占主流地位。 表示文本结构的模型称为结构模型。对于文本的结构模型,主要有两种类型:非重叠 链表模型和邻接节点模型。 而对于用户的浏览行为,常用的模型有三种m :平坦模型、结构向导模型和超文本模 型。图2 1 为上述信息检索模型的分类。 图2 1 信息检索模型分类 7 2 2 语义网和本体的概述 2 2 1 语义网 语义网是本体应用于互联网的重要成果,语义网研究的主要目的是进一步扩展万维 网,为网络中的信息赋予语义,是计算机能够最大程度地理解,进而促进人与计算机的交 流。将本体应用于万维网直接导致了语义网的诞生。语义网技术可以将万维网上数量巨大 的种类繁多的资源整合成在一起,形成一个互相按其意义联系起来的整体,使万维网成为 一个庞大的“知识数据库 。互联网的创始人t i mb e r n e r s - l e e 在x m l 2 0 0 0 提出的大会上 提出了语义网体系结构。如图2 2 所示。 图2 2 语义网体系结构 t i mb e r n e r s - l e e 将语义网( s e m a n t i cw e b ) 定义为“a ne x t e n s i o no ft h ec u r r e n t w e bi nw h i c hi n f o r m a t i o ni sg i v e nw e l l 一d e f i n e dm e a n i n g 。b e t t e re n a b l i n gc o m p u t e r s a n dp e o p l et ow o r ki nc o o p e r a t i o n 。”。在t i mb e r n e r s - l e e 所提出的语义网层次结构 中u n i c o d e ( 统一字符编码) 和u r i ( u n i v e r s a lr e s o u r c ei d e n t i f i e r ) 层等如下的7 层结构 o 。b e m c r s l e et 。e ta l ,t h es e m a n t i cw e b s c i e n t i f i ca m e r i c a n m a y2 0 01 :2 8 3 7 雪h t t p :w w w w 3 o r g 2 0 0 0 t a l k s 1 2 0 6 - x m l 2 k - t b l s l i d e l 0 0 h t m la c c c s d :m a r 2 0 0 4 8 ( 1 ) u n i c o d e 和u r i 层 u n i c o d e 和u r i 层为编码层,是整个语义w e b 的基础。其中,u n i c o d e 为语义网提供 了一种统一的字符编码标准,保证使用的是国际通用字符集,实现了网上信息的统一编码。 而u r i 则是语义网用于标识网络资源的统一方法,u r l 支持语义网的对象和资源的精确标 识,从而使精确信息检索成为可能。 ( 2 ) x m l + n s + x m ls c h e m a 层 x m l + n s + x m ls c h e m a 层是语法层。x m l 的使用者可以在他们的文档中插入任意的结构, 但是并没有说明这些结构的含意,因此x m l 不能提供语义,所以在语义网结构中x m l 只是 被作为语法层,来为语义网的建立提供语法基础。x m l 层具有命名空间( n a m es p a c e ) 和 x m l 模式( x m ls c h e m a ) 定义的功能。x m l 标记语言通过将网上资源信息的结构、内容与 数据的表现形式进行分离,确保语义网的定义,并且支持与其他基于x m l 的标准进行无缝 集成。 ( 3 ) r d f + r d fs c h e m a 层 r d f + r d fs c h e m a 层是语义网的数据层。通过对于用以描述资源及其相互关系的简单模 型的进行定义,是语义网实现的关键技术之一。 ( 4 ) o n t o l o g yv o c a b u l a r y 层 o n t o l o g yv o c a b u l a r y 层是语义网的本体语义层。该层在r d f + r d fs c h e m a 层的基础上 对语义表达能力进行了扩展和完善,揭示了资源本身和资源之间更为复杂的语义关系,进 而使信息的结构和内容进行分离,将信息作完全形式化的描述,以便于计算机能最大限地 理解信息的语义。 ( 5 ) 逻辑层 逻辑层用来产生规则。该层主要提供公理和推理规则,为智能推理提供基础。 ( 6 ) 证明层 证明层主要为逻辑推理提供认证机制。证明层对逻辑层所产生的规则进行执行,并结 合信任层的应用机制,来评判对给定的证明能否信赖。 ( 7 ) 信任层 信任层是语义网层次结构的最顶层,主要提供信任机制。该层使用户代理a g e n t 在网 络上进行得个性化服务和彼此间的交流合作更具有安全性和可靠性。 由语义网的层次结构可以看出,语义网的实现主要依赖于三大关键技术:x m l 、r d f 和 本体。x m l 、r d f 是作为数据表示的规范,而本体则是为语义提供了概念化的描述。语义网 虽然是现代互连网的扩展,但它力求使计算机之间的相互理解和沟通能够建立在语义层次 上,从而必定会为传统的互联网带来巨大推动和革命作用。 9 2 2 2 本体的概念 作为一个从哲学中引入的词汇,o n t o l o g y 被定义为“客观存在的一个系统的解释和说 明,客观现实的一个抽象本质 ,牛津英语辞典里把“o n t o l o g y 解释为:“对于存在的 研究或科学( t h es c i e n c eo rs t u d yo fb e i n g ) 。后来,人工智能有关课题的研究进展 使这个词获得了复兴,n e c h e s 等人将本体定义为“给出构成相关领域词汇的基本术语和关 系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义 啪1 ;这个定义实际 上给出了构造本体的过程,即:找出术语和术语间的关系及相应的规则,然后给出这些术 语和关系的定义。在计算机界,g r u b e r 在1 9 9 3 年把这个术语定义为“概念模型的明确的 规范说明 。后来,b o r s t 对此稍做修改,提出:“本体是共享概念模型的形式化规范 说明 2 3 1 。 1 9 9 8 年s t u d e r 等人在这个定义的基础上对于本体的特点给出了一个更为明确和全面 的解释:“知识本体是对概念体系的明确的、形式化、可共享的规范说明 口7 1 ,并且进一步 指出,知识本体是“领域知识规范的抽象和描述,表达、共享、重用知识的方法。 b 刀这个 定义是目前为止最完善的定义,它体现了o n t o l o g y 的四层含义: ( 1 ) 概念模型( c o n c e p t u a l i z a t i o n ) :通过将客观世界中一些现象的相关概念抽象出来 而得到的概述模型,其表现的含义独立于具体的环境状态。 ( 2 ) 明确( e x p l i c i t ) :所使用的概念及使用这些概念的约束都

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论