(通信与信息系统专业论文)本体在智能信息检索系统中的应用研究.pdf_第1页
(通信与信息系统专业论文)本体在智能信息检索系统中的应用研究.pdf_第2页
(通信与信息系统专业论文)本体在智能信息检索系统中的应用研究.pdf_第3页
(通信与信息系统专业论文)本体在智能信息检索系统中的应用研究.pdf_第4页
(通信与信息系统专业论文)本体在智能信息检索系统中的应用研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(通信与信息系统专业论文)本体在智能信息检索系统中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河海大掌硕_ k t i i j f 究生论文摘要 摘要 本文针对抽水蓄能( p u m p e ds t o r a g ep o w e r ,p s p ) 领域信息资源分布、异质、异构, 并且缺乏有效描述该领域资源的p s p 本体及开发方法,导致用户在查询该领域的资源时 检索效率低的现状,在分析本体表示领域知识的理论、方法、特征及其形式化语言的基 础上,引入软件工程的方法,从工程的角度,探索开发p s p 领域本体的方法,提出了开 发p s p 本体的模型。在p s p 专家的指导下,以反击式水轮机供应商的本体开发为例具体 分析了创建个标准的、可扩展、独立于运行环境的p s p 本体过程;并编程实现了基于 j e n a 的p s p 本体中立存贮及其概念隐含语义的查询,从而使p s p 本体能够成为用户、应用 理解p s p 领域资源知识的媒介。从技术层面上分析了实现p s p 领域知识的共享和重用的 条件,以进一步推动p s p 本体在其领域的应用。 本文最后设计了一个基于p s p 本体的智能信息检索原型系统,以验证p s p 本体对检 索p s p 领域的信息资源影响。该原型系统向用户提供概念查询和语义查询( 扩充、缩小) , 其实际上是在p s p 本体表示概念显性和隐性关系的基础上进行精确查找,提高了用户的 查准率,实现了对该领域资源的智能化检索,这是传统w e b 检索系统所不能达到的。该 系统为进一步研究本体在应用中实现领域知识共享和重用打下良好的基础。 关键词:本体、抽水蓄能、j e n a 、o w l 、智能信息检索 本体在智能信息检索系统中的应用研究 a b s t r a c t t h e p a p e ra i m s a tl a c ko f p s p o n t o l o g ya n d e f f i c i e n td e v e l o p i n g m e t h o d ,p u m p e d s t o r e d p o w e r ( p s p ) r e s o u r c e sw h i c h i sd i s t r i b u t e d ,h e t e r o g e n e o u s ,v a r i o u ss ot h a tu s e r sc a r l n o tr e t r i e v a lr e s o u r c e sq u i c k l ya n d p r e c i s e l y o nt h eb a s i so fa n a l y z i n gt h et h e o r ya n d c h a r a c t e r i s t i co f o n t o l o g y w h e n i t r e p r e s e n t t h e k n o w l e d g eo f a d o m a i n ,t h e m e t h o d o f t h e s o f t w a r ee n g i n e e r i n gi si n t r o d u c e dt ob u i l dp s p o n t o l o g y , a n d am o d e li sb u i l tf o rp s p o n t o l o g y ,u n d e r t h e h e l po f p s p e x p e r t ,t h ed e v e l o p m e n to f t h es t a n d a r dm a d e x p a n d e da n d i n d e p e n d e n t p s p o n t o l o g y i sa n a l y z e db ya l le x a m p l eo f b u i l d i n gt h er e a c t i o nw a t e r t u r b i n e o n t o l o g y t h es t o r a g ei n d e p e n d e n to f a p p l i c a t i o n sa n dq u e r yo f i m p l i c i ts e m a n t i c so f t e r m a r e g a i n e d ,w h i c hl e a dt ot h ep s po n t o l o g ya m e d i ab e t w e e nu s e r sa n d a p p l i c a t i o n su n d e r s t a n d i n g t h ep s pd o m a i n k n o w i e d g e t h et e c h n o l o g yc o n d i t i o no fk n o w l e d g e s h a r ea n dr e u s ei np s p d o m a i ni sa n a l y z e dt op r o m o t et h eo n t o l o g y sa p p l i c a t i o n s a te n d ,t h ep a p e r b r i n g sf o r w a r dao n t o l o g y d r i v e ni n t e l l i g e n ti n f o r m a t i o nr e t r i e v a l p r o t o t y p es y s t e m t ov e i l f yt h ei n f l u e n c eo fp s p o n t o l o g y i ni n f o r m a t i o nr e t r i e v a l t h es y s t e m p r o v i d e s t h r e ew a y st h a ta r ec o n c e p t q u e r y , e x p a n d e d s e m a n t i cq u e r ya n dr e d u c e ds e m a n t i c q u e r y i nf a c t ,t h e ya r en o to n l ye x a c tq u e r y b a s e do nt h ee x p l i c i ta n d i m p l i c i tr e l a t i o n s b e t w e e n c o n c e p t so f p s po n t o l o g y , b u ti m p r o v eg r e a t l yt h ep r e c i s i o n o f r e c a l la sw e l l t h e s y s t e mg e t st h eg o a lo fi n t e l l i g e n tr e t r i e v a li n f o r m a t i o n ,w h i c ht r a d i t i o n a li n f o r m a t i o nc a r l t i t i sa g o o d b a s i so f f u r t h e r s t u d y i n go n t o l o g yr e u s e a n ds h a r ei na p p l i c a t i o n s k e yw o r d s :o n t o l o g yp u m p e ds t o r e dp o w e ro w lj e n a i n t e l l i g e n ti n f o r m a t i o nr e t r i e v a l i i 河海人学硼l 研究生论史前言 日h吾 计算机技术发展日新月异,w e b 技术更是如此,目前w e b 信息系统已成为全 球最大的信息系统,在人们的工作、生活中占据着重要的地位。随着信息的急剧 膨胀,w e b 上出现了多种异质、异构信息。面对海量信息,用户在获取某个领域 的w e b 资源时,往往花费很长的时间而得不到所需的结果,导致用户的检索效率 很低。这是由于当前w e b 主要使用的技术标准为h t m l 、x m l 、r d f ( s ) ,h t m l 向用户显示数据,x m l 是当前w e b 数据交换的标准的语法格式,它们无法表达数 据含义:r d f ( s ) 提供了描述w e b 资源语义的框架,虽然能够表达简单的概念 语义,但是无法从领域角度表达复杂的语义;而且当前w e b 资源的描述方式分类 法、主题法、主题图无法表达概念间的复杂的语义关系;现在的w e b 检索技术基 于关键词形式匹配;因而当前的w e b 技术,己不能满足w e b 应用增长对资源共享 和重用的需求。究其根本原因是在人、应用程序间缺乏一个对语义理解的通信标 准,导致异构系统问、异质数据问无法实现数据的共享、重用、协作。 语义w e b 是有效解决此问题的方法之一,本体是语义w e b 实现的关键,是当 自仃研究的热点。虽然当前国内外的机构和团体对基于本体应用的理论研究比较活 跃,但是由于缺乏对领域知识的描述标准、工程化的本体构造方法及示范性的本 体应用,并且本体的构造需要大量的人力、物力的支持及本体开发人员与领域专 家的共同协作等,种种因素导致语义w e b 技术仍然没有得到广泛的应用。 本体是对概念化的明确规范,它明确的描述了某个领域的概念及其间的关 系,是人与应用共同理解领域知识的媒介。根据本体表示知识的特点,本文将从 某个特定的领域寸由水蓄能领域( p u m p e ds t o r a g ep o w e r ,p s p ) 着手,从】:程 的角度研究本体开发过程,探讨本体的开发技术;并设计本体驱动的w e b 信息检 索模型,对本体在w e b 信息检索中的应用进行分析研究,以进一步的推动语义 w e b 技术在实际中的应用。 本文在领域专家的参与下,将软件工程的方法运用到本体开发的过程中, 提出了开发p s p 领域本体的模型,创建一个标准的、可扩展的p s p 本体,以期成 为描述该领域知识的标准。并设计本体驱动的原型系统一p s p 智能信息检索原型 系统,以验h t p s p 本体对检索p s p 领域w e b 资源的影响。实践表明该原型系统提 高用户对p s p 领域资源的查准率,实现对p s p 领域资源的智能化检索,能够提高 用户的检索效率。这是传统的w e b 信息检索系统所不能达到的。 学位论文独创性声明: 本人所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果。与我一同工作的同事对本研 究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。如不实, 本人负全部责任。 论文作者( 签名) : 兰墨兰i 聱 勘西年。月2 y 日 ( 注:手写亲笔签名) 学位论文使用授权说明 河海大学、中国科学技术信息研究所、国家图书馆、中国学术期刊( 光 盘版) 电子杂志社有权保留本人所送交学位论文的复印件或电子文档,可 以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅。 论文全部或部分内容的公布( 包括刊登) 授权河海大学研究生院办理。 论文作者( 签名) :z 墨茎i 鍪。时年2 月2 厂日 ( 注:手写亲笔签名) 河海大学顶士研究生论义 第一章绪论 1 1 课题研究的背景 w e b 葭呗凡t i mb e r n e r s - l e e l l i 等人在超文本、s g m l l 标准和i n t e m e t 基础上研究开发 出统一资源标识符( u n i f o r m r e s o u r c ei d e n t i f i e r s ,u r i ) 、超文本传输协议( h y p e r t e x t t r a n s f e rp r o t o c a l ,h t t p ) 和超文本标记语言( h y p e r t e x tm a r k u pl a n g u a g e ,h t m l ) , 在此基础上,创建了第一个w e b 网站h t t p :i n f o c e r n c h 。t i m 的目标是将w e b 建立成个 全球信息共享的唯一的、普遍的、可访问的超文本媒介,1 9 9 4 年组织成立了w o r l dw i d e w e bc o n s o r t i u m ( w 3 c ) ,致力于“引导w e b 发挥其最大潜力”。 w e b 技术的开放性及免费性,直接引发了一场前所未有的信息革命,现在w e b 已成 为全球最大的信息交流系统。目前全球每年产生2 e b ( e x a b y t e ) - 非重复的数据,而其中约有 9 3 以数字格式存储【2 ,存储格式多种多样,如文本、图形、图像、视频、声音等。w e b 上的信息急剧膨胀,面对海量、异质、无序的w e b 信息,人们在获取某个领域内的信息 时费时费力,而且结果往往不能令人满意。这是由于w e b 的初始设计已无法满足应用增 长的实际需求,主要体现在: ( 1 1 机器无法理解当前w e b 数据所表达的含义,不利于w 曲信息的查询。当前w 曲通 信及数据交换标准为h t m l 、x m l 【3 j 4 l ( e x t e n s i b l em a r k u pl a n g u a g e 可扩展标记语言) 语言,h t m l 表达的信息是面向人类的,使用元素标记来标识有限的文档结构,在人机 界面处理上很出色。但是它所传输的只是一个超文本文档的结构,在w 曲浏览器中规范 内容的显示效果,向人们显示信息如文本、图像,许多功能的实现必须借助于插件和专 用浏览器,而且这些工具并不能完全控制文档的结构,对多种格式数据的描述并没有统 一标准,因而w e b 上大多数据是非结构化、半结构化数据,使得机器自动化处理w e b 数 据的能力较差。针对这种情况,在s g m l 的基础上,w 3 c 又发布了一个简单、灵活的 w e b 技术规范x m l 一种高度结构化的语言,为w e b 数据通信和交换提供了统一的 格式,在数据的通信和交换过程中,实现了数据和显示的分离。但是x m l 只是表示了信 息标签的含义,并没有表达信息本身的含义,它只是进一步提高了机器自动化处理- w e b 信息的能力,仍不能满足w e b 上多个用户或团体大范围的信息共享。 ( 2 1 相关领域信息概念的描述没有统一的标准,从而产生了信息语义的多重性、异构 性。由于w e b 的开放性,信息发布人员处于不同的行业背景,所受的教育不同,因此他 1 s g m l 是一种用标记来描述文档资料的通用语言,它包含了一系列的文档类型定义( d o c u m e n t t y p e d e f i n i t i o n d t d ) ,d t d 中定义了标记的含义,因而s g m l 的语法是可以扩展的。但是s g m l 十分庞大 既i i 容易学又不容易使用,在计算机实现也十分困难。 本体在智能信息检索系统中的应用研究 们可能对某一事物概念产生不同的理解,对同一概念给出不同的定义,不利于人、机器 之间相互交流、机器间的共享协作。 ( 3 ) 信息资源组织的方法【5 主要采用分类法( t a x o n o m y ) 、主题法( t h e s a u r u s ) 、 主题图( t o p i cm a p ) ,无法表达概念间的复杂关系( 如概念间的不相关关系) ,表达 的概念语义程度不深。 ( 4 ) 传统的信息检索技术以关键字符匹配为基础1 6 1 7 1 ,参与匹配的是字符的外存形式 而不是它们所表达的概念语义,所以经常出现检索不全、答非所问的结果,降低了同义 词、多义词问查询的精确度。 种种因素使得w e b 信息的组织局部有序而整体无序。随着w e b 技术的广泛应用,w e b 上的抽水蓄能( p u m p e ds t o r a g ep o w e r ,p s p ) 信息资源的越来越多,而这些资源的信息 往往由不同单位和个人提供,对异质、异构的信息没有统一的描述,导致用户对p s p 领 域信息资源的检索效率低( 如查准率低,检索时间长等) ,而传统w e b 信息检索技术无 法解决这个问题,检索的结果往往很难满足用户的需求。为了使用户能够快速准确的获 取p s p 领域的信息资源,这就需要对w e b 上分布于异地的p s p 领域信息资源的表示、抽取、 检索等引入新的机制,从技术层面上解决检索p s p 领域w e b 资源所存在的问题,使得: ( 1 ) 机器能够理解p s p 信息资源的所表达的语义信息,实现机器对p s p 领域资源的智 能化处理。 ( 2 ) 机器与用户对p s p 领域知识认识的统一,从用户个性的认知模式和检索习惯角度 实现p s p 领域信息资源的有效整合,以将分散于不同地点的p s p 领域信息快速、高效的 反馈给用户。 ( 3 ) p s p 领域异构系统间、异质数据语义统一,在应用间实现数据共享、重用、协作。 数据通信和交换只有实现数据语义的交换,而不是单纯的数据本身( 形式) 的交换, 才能达到上述的目的。这里语义是指明确描述p s p 领域资源的概念以及它们之间的关 系,是对用户头脑中对p s p 领域知识认识的概念图( 符号系统) 的表达,同时也是机器 表示的p s p 领域知识的符号系统,是联系用户、机器表示和p s p 领域的途径 8 】,而当前 w e b 技术并不能将人对p s p 领域的知识理解( 概念图) 转换成机器可能理解的符号系 统。因而新的机制实现的关键是在人与机器间建立一个统一的符号系统,从而使人与应 用、应用与应用间对p s p 领域知识达到一个共同的认识。w 3 c 后来又发布了r d f 【9 1 ( r e s o u r c e d e s c r p t i o n f r a m e w o r k ,通用资源描述框架) 和r d f s 【l o j ( r d fs c h e m a ) ,虽 然r d f 提供了一种描述w e b 信息资源通用框架,使应用程序在交换数据时而不丢失语 义,r d f s 只是从概念层次关系上描述概念的语义信息,因此r d f ( s ) 对相关领域概 念的语义表达能力、支持推理能力不强,在数据的通信和交换过程中,减少了语义的失 河海大学预士研究生论文第一章缔论 真,但是仍然无法解决当前w e b 所存在的问题。 由于x m l 标签的定义、r d f 对w e b 信息资源的描述,它们的含义都取决于具体的 应用领域,另外由于开发人员和用户所处的领域、知识水平、看问题的深度不同,所以 刺同一事物、问题的概念及关系往往有不同的理解,因此在当前的w e b 技术条件下, 可以通过对p s p 领域的概念及其之间的关系作明确的规范来达到人、机器对p s p 领域 的概念语义的共同理解。将本体( o n t o l o g y ) 应用到当前的w e b 信息检索系统中,将能 够实现此目的,本体在w e b 上的应用导致了语义w e bf i l j f l 习( s e m a n t i cw e b ,s w ) 的 产生,它代表了下一代w e b 技术的发展方向。 1 2 语义w e b 研究现状 1 9 9 8 年t i m 等人首先提出语义w e b 的概念f i “,他认为语义w e b 是当前w 曲的延 伸,其上信息的含义已经被预先良好的定义,使人与机器、机器间能够更好的实现信息 的共享与协作。和人工智能( a i ) 不同,语义w e b 的语义并不要求机器理解人的语言, 或是按照已有条件推理出意想不到的结果,它只是对预先定义的数掘进行预先定义的操 作,解决预先定义的问题【1 3 】, 语义w e b 的目标是让机器能够理解w e b 上的信息,以实现机器对w e b 信息资源的 智能化处理。语义w e b 的基本体系结构如图1 1 : 图1 1 语义w e b 体系结构 u r i 和u n i c o d e 层是语义w e b 的基础。语义w e b 仍然采用当前w e b 体系结构 中的u r i 及u n i c o d e 标准,解决w e b 资源的定位和字符编码的问题。 x m l + n s + x m l s h e m a 层语法表示层,为语义w e b 信息交换提供了标准的 语法格式,并采用n s ( n a m es p a c e ) 机制解决不同的信息资源问产生厨名 本体在智能信息检索系统中的应用研究 的问题。 r d f + r d f s 层资源描述层,用于描述w e b 上的资源及其类型。它是一种描 述w e b 数据的元模型,描述了w 曲信息资源及其之间简单的语义关系。 o n t o l o g yv o c a b u l a r y 层本体层,是构建语义w e b 的关键。它架构在x m l 、 r d f 之上,定义领域共享的知识,本体的知识表示能力远远超过r d f s 的基 本语义,不仅能够表达了相关领域术语的显性( e x p l i c i t ) 含义而且能够表达 其隐一n ? ( i m p l i c i t ) 的含义,能够表达比较复杂的概念语义。 l o g i c 层逻辑推理层,主要提供公理和推理规则,为智能服务提供基础。 p r o o f ( i l i 明) 、t r u s t ( 信任) 、d i g i t a ls i g n a t u r e ( 数字签名层) ,数字签名层跨 越了多层,虽然公共钥匙密码技术已存在较长时间,但是还没有真正广泛应 用。p r o o f 和t r u s t 这部分内容在概念上目前还没有一个公认权威的说法, 但是语义万维网的研究者普遍认为p r o o f 和1 h s t 将是下一代w e b 的重要 概念 1 4 】。 因而在语义w 曲体系结构中,核心层为x m l 、r d f s 、o n t o l o g y ,目前 x m l + n s + x m l s h e m a 、r d f + r d f s c h e m a 、o n t o l o g yv o c a b u l a r y 层w 3 c 已相继发布相应的 技术标准。x m l 、r d f 是本体描述w e b 信息资源语义的基础,提供了本体描述w e b 资 源的概念及其间关系的语法和框架,为机器能够理解利用本体所描述的信息资源语义提 供了技术基础,l o g i c 是在这三层的基础上进行逻辑推理,这种推理是按照一定的规则, 根据本体描述的已有条件,推理出本体定义的结论,并通过数字签名技术使得这个结论 在一定范围内是可以信任的“。 总之,本体是实现语义w e b 的关键技术,语义w e b 环境下的应用实质是在本体对 w e b 信息资源及其间的语义关系的表达基础上,对其进行逻辑推理,得出某种可以信任 的结论。因此当前对语义w e b 研究和应用,本质上是对本体的研究和应用,在第二章 中,将对本体进行详细的讨论。 语义w e b 是当前w e b 技术研究的热点之一,目前国内外很多研究机构( i b m 、h p 、 w 3 c 、d a r p a 、中科院等) 、大学( 如s t a n f o r d 、m a r y l a n d 、p r i n c e t o n 、k a r l s r u h e 、清华 大学等) 都积极地对此进行研究n 但是我国起步得较晚, 2 0 0 3 年6 月成立中国万 维网联盟( w 3 c h i n a ) 以致力于国内w c b 技术的研究、推行。虽然在研究人员和工业界 共同努力下,w 3 c 于2 0 0 4 年2 月发布了一系列技术规范,但是目前仍然没有实用的语 义w e b 应用,这主要是由于存在下面问题: ( 1 ) 通用本体相对缺乏。现有信息系统要么没有使用先进的通用本体,要么没有利 用正确的方法学和理论方法来建立本体。由于开发人员的素质和开发目的的不同,很难 河海火学硕士研究生论文 对相关领域内的一些共享概念达成共识。 ( 2 ) 缺乏工程化的本体构造方法。目前本体的开发正从技术开发向本体工程阶段过 渡,本体工程由一系列活动组成,如本体的设计原则、开发方法、应用、评价、知识共 享与重用等“,并取得了成功如t o v e ( ( t o r o n t ov i r t u a le n t e r p r i s e ) 、e n t e r p r i s e o n t o l o g yp r o j e c t ”。由于开发本体的团体处于不同的学科领域,他们虽然总结出各个 领域不同的开发方法、生命周期及体系结构,但是本体的开发过程仍然没有一个通用的 开发标准。 ( 3 ) 缺少强有力的机构来进行组织、海调、规划本体的刨建,对领域概念关系分析 的方法没有统一的指导。不同单位为了相同的目的,往往不但做了重复的劳动,而且创 建了异构的本体。这有悖于本体共享和重用的本质。 ( 4 ) 缺乏示范性的应用。文献 1 9 认为w e b 环境的知识本体至少应该满足下面的一 些要求:语义共享、演化能力、可交互性、致性检测、表示能力和扩展能力的平衡、 易于使用、与其它标准的兼容、语言国际化等,这些要求决定了本体的开发需要大量的 人力、物力的支持。因而当前对本体驱动的应用理论研究比较活跃,但是缺少实际的支 撑性应用。 语义w e b 技术虽然没有得到广泛的应用,在对本体的研究进程中仍然会遇到各种 各样的问题,但是本体在应用中的实现知识共享和重用的优势是不容忽视的,它将给智 能信息检索、a g e n t 、电子商务、企业信息管理等应用带来重要的变革。 1 3 课题研究的内容、目的 本体从领域的角度明确的描述概念显式和隐含的关系,因此本课的将选择某个特定 的领域,来研究本体的开发技术及在某个领域中的应用。由于抽水蓄能( p u m p e ds t o r a g e p o w e r ,p s p ) 领域信息资源具分布、异质、异构的特征,而且在该领域缺乏基于本体的 描述资源的标准,使人与应用对p s p 领域知识不能达到共识,导致用户在查询该领域资 源时检索效率往往较低。本课题将从p s p 领域着手,通过创建p s p 本体、分析其中立的 存贮手段及明确表达概念关系的方法,以探索在p s p 领域知识在信息资源的管理、智能 检索中的共享和重用技术;并创建一个示例性的原型系统,分析p s p 本体对检索p s p 信 息资源影响,以进一步推动本体在w e b 信息系统中的应用。 1 4 论文的结构 本文共有六章: 第一章:阐述了本课题提出的背景,当前w e b 技术的发展不能满足w e b 应用增长对 术休在智能信息检索系统中的应用i i j 究 资源共享和重用的需求,在人与应用对领域知识理解达刁:到共识,导致用户检索效率低, 并提出应用语义w e b 技术是解决此问题的方法之。,介缁了语义w e b 的发展现状及其存 在的问题。最后提出研究本课题的目的及其意义。 第二章:深入分析了本体的含义与传统资源描述的方法分类、主题等相比的优点及 其表达领域概念的方法、理论、开发工具,并具体分析了w 3 c 发布的形式化语言x m l 、 r d f ( s ) 、o w l 形式化本体的特点。 第三章:将软件工程的方法引入本体的j 于发中,从工程的角度,提出开发p s p 本体 的模型,并以构造反击式水轮供应商本体为例,探讨了开发本体所需的技术。本体的开 发不仅需要大量的人力和物力的支持,而且需要本体开发人员和领域专家的共刷的协 作,在丌发p s p 本体的过程中,p s p 领域的知识取自国家标准及分类和主题词表,并且 多次与p s p 专家对此进行讨论,以保证p s p 本体的权威性和标准性。以进一步推动p s p 本 体的应用。 第四章:分析和实现了基于j e n a 的本体的中立存贮及其隐含语义的查询技术,从而 使p s p 本体成为人与应用无歧义的理解该领域的媒介;。 第五章:设计基于本体的p s p 智能信息检索原型系统,以验证p s p 本体对检索p s p 领 域资源的影响。该系统以p s p 本体为媒介,使用p s p 本体概念标注w e b 资源,同时设计用 户语义分析组件对用户提问进行分析,将其转换成本体概念;设计查询语义分析组件对 本体概念进行简单语义分析和复杂语义分析,向用户提供概念查询和语义查询实质上基 于p s p 本体的概念关系的精确查找,提高了用户的查准率,实现了对p s p 领域资源的智 能化检索,提高了用户的检索效率及满意度。这是传统的w e b 信息系统所不能达到的。 第六章:对研究工作进行了总结并对未来的工作进行了展望。 河海大学硕士研究生论文第二章本体及其表示语言综述 第二章本体及其表示语言综述 2 1 引言 本体来自希腊词汇,o n t o 表示b e i n g ,l o g o s 表示t or e a s o n ,最初是哲学上的一个分 支,用来表示事物的本质和组织。虽然这个术语在1 7 世纪诞生,但是它和亚里斯多德在 公元前四世纪所给出的定义( m e t a p h y s i c s ) 同义,哲学家们用它来回答一些基本的问题如 “什么是本质? ”、“所有事物的一般特征是什么? ”。本体在计算机领域研究的应用和人 工智能( a i ) 、信息技术的发展密切相关 2 。在a i 领域,为了建立相关领域的通用知识 库,需要考虑在一个领域中哪些知识是可以复用的或共享的,以及怎样获取和描述一个领 域中的一般性知识等问题;在数据库管理系统领域,虽然数据库技术己经成熟,但是数 据库的异构给数据的集成和共享带来很多困难;在软件工程领域,应用程序需要具体、 统一的领域建摸形式化基础面实现软件的复用。这三个领域的发展都需要解决对特定领 域的概念进行通用的描述,这正是本体回答的问题。 2 2 本体定义 本体以一种明确的、形式化的方式表示领域概念及其之间的关系,成为人、机器、 应用程序对概念语义达到共同理解的媒介,在应用问实现知识的共享及重用。随着对本 体认识和研究的深入,对本体的描述也在不断变化发展中。在a i 领域,最早给出本体定 义是n e c h e s 2 1 1 等人,认为“相关领域词汇的基本术语和关系,以及利用这些术语和关系 定义词汇外延的规则”。1 9 9 3 年美s a n f o r d 大学的知识系统实验室( k s l ,k n o w l e d g e s y s t e m sl a b o r a t o r y ) 的学者t h o m a sg r u b e r 2 2 1 给出的定义得到了广泛的认可,他认为: “知识的形式纯表达的基础是概念4 毡翻( c o n c e p t u a l i z a t i o n ) ,概念纯包括研究领域内 的对象、概念和其它实体以及它们2 阃的关系:鼠沈。概念仡是我们为7 某些s 的甬 亲表示世界的一种抽象、简化观点,每一个知识摩、知识系统( k b s k n o w l e g e d - b a s e d s y s t e m ) 、基于知识番次的口犁瞄都晚确的或是稳含的遵守某个概念化,本体论是对概念 化明确的规范说殇在a l 领域存在( e x i s t s ) 是可以表示,当领域知识以一种明确的形 式纯方式进行描述鲍时候被表示的对象的集合构或论域,对象的集合及萁司描述的关 系通过稚识表达语言的词汇描述,因此盎- a l 领域我们司以通过定义知识表示的术语 集合来定义程亭的本体,在这样筑一个奉体中论域中的实蒋的名字t 如类、关系、函 数、或其它对象等) 通过定义- g a 可以理解的文本相关联定义描述了名字包含韵意义、 公理。公理嗄翩7 这些术语的解释及形式化使甬,执形式化角囊来说本体是个逻辑 理论的陈述缝描述,1 本体在智能信息检索系统中的应用= f i 】究 在对g r u b e r 的定义修订和提炼基础上, g u a r i n o 2 5 j 【2 4 1 认为概念之间的差别一i 仅体现 在概念的定义上,同时也体现在概念的某些特性上,并引入了域空间的概念,为形式化 研究本体的集成、共享以及系统应用提供了一个良好的基础。后来又有很多研究人员学 者埘本体给出新的定义,女u s t t t d e r l 2 6 等人在9 8 年给出的定义为”a no n t o l o g y i sa f o r m a l , e x p l i c i ts p e c i f i c a t i o no f a s h a r e dc o n c e p t u a l i s a t i o n ,只是在g r u b e r 定义的基础上做了进一步 的扩展。总的来说都没有超出g r u b e r 年e i g u a r i n o 的观点。 2 3 本体知识表示的特点 本体实际上是一个形式化的词表,它通过一个抽象的模型表达了某个领域的概念以 及其之间的概念。在符号层,本体使用逻辑理论表示概念系统:在知识层,是对共享概 念化的形式化、明确的规范说明。本体对知识的表示包括两个步骤,首先对相关领域的 概念化( 概念、属性、关系、约束、公理等) 进行明确的规范的说明,使得领域人员对 该领域知识的达到共同认识;然后形式化概念化所做的规范说明,使机器能够理解该领 域知识,从而将人刘领域知识的认识转换成机器对领域知识的认识。 出于本体表示的概念化独立于具体的运行环境( 如描述语言) ,因此用户、应用问 共享本体刚必须遵守本体承诺( c o m m i t m e n t ) ,以保证用户、应用使用的本体连贯和一 致;本体承诺在本体查询和断言中保证一致性,但是不保证完备性【2 ”。在设计和开发本 体时,必须遵守最小本体承诺( m i n i m a lo n t o l o g i c a lc o m m i t m e n t ) 原则,以充许其他团 体根据需要自由的定制和初始化他们需要的本体,实现本体的共享与重用。 因此作为知识表示的一种方式,本体在概念语义的表达上综合了其它方式如分类、 主题、主题映射的特点 引,在确定了相关领域的共享概念后,将其进行清晰地分类层次 划分,再根据它们之间的关系,进行逻辑推理,明确的表达概念隐含的意义,表达了比 分类、主题、主题图更深的语义信息;与关键词相比,在知识层次上对概念化进行规范, 不依赖于任何特殊的符号层次的编码,对术语的定义是完整的,客观的,不依赖于某个 特定的环境,并支持逻辑推理,因而基于本体的信息检索中不仅仅是形式的匹配,而且 能够实现更深的语义检索。 2 4 现有本体的分类 随着各种团体开发的知识本体的增多,根据本体所依赖的领域和模型,可以分为三 种类型 2 7 f 2 4 】: 顶级本体( t o p l e v e lo n t o l o g i e s ) 描述最普遍的概念及概念之间的关系,如 空间、时间、事件、行为等,与具体的应用无关,其他知识本体均为它的特例。 河海大学硕士研究生论文 第二章 本休及其表示语言综进 领域本体( d o m a i no n t o l o g i e s ) 描述特定领域中的概念和概念之问的关系。 知识表示本体( k n o w l e d g er e p r e s e n t a t i o no n t o l o g i e s ) ,也m = b m “1 h - 1 3 表示系 统中嵌入本体框架,是一个面向机器的,在异构程序闯进行数据交换的本体,有明 确的语义,例如描述概念间的关系,支持逻辑推理。具体的如框架本体,它捕获了 用于框架语言的表示原语。 各类本体的关系及其在机器问的数据的交换和共享中的可用性和重用性,如图 2 1 所示: 图2 1 各类本体的可用和重用关系( 参考文献 2 4 ) 现在已经成功开发的本体有:c y c 2 s l 为顶级本体,t o v e 29 1 、u m l s f 3 0 f u n m e d m e d i c a ll a n g u a g es y s t e m ) 、w o r d n e t 3 1 l 属于领域本体。由于各类本体所包含的内容、结 构可能不同,因而在实际应用中,不同本体表示的语义往往需要转换和集成,才能实现 机器对信息语义的共同理解。 2 5 本体的研究动向 本体的核心是实现知识的共享与重用的媒介,因此研究本体如何表示概念的语义关 系及如何实现共享重用是实现机器对w e b 信息资源语义理解、智能化处理的关键。目前 各个研究团体的主要研究动向有 7 】【1 5 】【3 2 】: 本体表示语言。是实现知识共享与重用的基础,是语义w e b 的核心。语义w e b 通过本体表示语言描述领域资源,将其发布到w e b 上,目前基于w e b 的本体表示 语有:s h o e 33 1 、x o l 3 4 1 、x m l 、r d f ( s ) 、o w l 3 5 等。 w e b 信息向本体语义内容的转换。是语义w e b 研究的首要问题,即如何将w e b 信 息与本体库映射,一般采用r d f 标准。 9 本体在智能信息检索系统中的应用研究 本体工程的研究。本体和软件类似,随着学科领域的发展,需要进行更新、维 护、重用。本体工程的研究包括研究本体的开发方法、评价、知识共享与重用 等,例如,创建和管理本体,本体扩充、合并、映射:在本俗的基础上进行语 义推理和查询,本体的演化。这对于语义w e b 的实现有重大的意义。 本体的重用。由于不同的知识团体间开发的本体往往存在着多种层次的异构, 如本体语言层次的异构、本体模型层次的异构、其他的异构( 本体的演化) 等, 对不同的异构本体,可以采用不同的方式实现重用。目前用来解决本体语言层 次的不匹配问题的方法包括元模型方法 3 6 】、o k b c 3 7 0 建立知识本体语言标准等; 解决本体模型层次上的异构通常采用共用顶层模型( c o m m o nt o pl e v e lm o d e l ) f f 方法来解决。这个领域比较著名的项目有a b c 、i e e es u o 工作组fi e e e s t a n d a r du p p e ro n t o l o g y ,i e e es u o ) 。 本体开发工具和支撑软件。包括研究语义w e b 的应用编程接口与实现、本体形 式化方法、存储与查询,w e b 信息资源的知识获取、内容的创建和语义标注工 具等。现在已经推出的工具和支撑软件有p r o t 6 9 62 0 0 0 t 3 3 1 ,o n t o e d i t l 2 ”,j e n a l 3 9 】等。 本体的应用研究。在电子商务、信息集成、信息检索、企业管理等领域都得到 了广泛的研究。但是目前仍然为没实际的应用,所以限制了它的发展。 由于诸方面的原因,目前在p s p 领域仍然个领域资源进行有效描述的数据标准, 因而探讨开发p s p 本体技术,构造一个标准的、可扩展的p s p 本体,更好的实现p s p 领域资源的共享和重用是势在必行的。本课题首先对p s p 领域本体的开发和存储技术 进行研究,构造一个p s p 本体,为p s p 领域资源提供新的描述标准,然后开发个基 于p s p 本体驱动的智能信息检索系统,检验p s p 本体对此应用的影响,探索p s p 本体 的技术,以推动p s p 领域本体标准的建立及其在p s p 领域的应用。这将在第三章、第 四章、第五章作详细的讨论。 2 。6 本体描述语言 2 6 1 概述 本体只有被形式化后,才能被机器理解,作为一种独立于语言的概念化表示方法, 可以使用不同程度的形式化方法对其进行描述,如表2 1 : 河海人学删一j 研究生论文第= 章本体及其表示吾言综述 表2 1 :形式化程度与本体表示语言 形式化程度表不语言 非形式化自然语言 半非形式化 自然语言被限制的和结构化的格式 半形式化人工的、形式化的定义语言 带有形式化语义、公理、证明( 如稳定 严格形式化 性、完备性属性) 的语言 由t 表可知,根据形式化程度的不同,既可以用自然语言来表示本体,也可以用框架、 语义网络或逻辑语言来描述,采用相应的推理机制实现概念隐含语义的明确化。 本体对w e b 信息资源的描述是实现机器对w e b 信息资源的语义理解关键部分,随 着对本体知识表示的特点的认识,工业界和研究机构研究出许多本体表示语言,如 c y c l 、o n t o l i n g u a 40 1 、s h o e 、x m l 、r d f 、o m l c k m l 4 x o l ( x m l b a s e d0 n t o l o v e x c h a n gl a n g u a g e ) 、o i l 【4 2 等。 c y c l 由c y c o r p 开发的一种形式化语言,基于f o p c ( f i r s t o r d e r p r e d i c a t ec a l c u l u s ) 及l i s p 语法,它具有较灵活的知识表示语言,c y ck b 对人类一般知识进行如日常生活 中对象或事情的事实、规则、启发式推理形式化表示,非框架的系统。o n t o l i n g u a 由斯 坦福大学的研究小组开发,基于k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 语义和l i s p 语 法,主要在不同知识表示系统中共享知识,是框架知识表示系统。它提供了一个丰富的、 知识层次的语言来规范概念、关系、公理。它支持一阶逻辑推理的完全表达。s h o e 是 h t m l 的本体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论