以基于本体的论文检索原型系统为例.pdf_第1页
以基于本体的论文检索原型系统为例.pdf_第2页
以基于本体的论文检索原型系统为例.pdf_第3页
以基于本体的论文检索原型系统为例.pdf_第4页
以基于本体的论文检索原型系统为例.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复旦大学 硕士学位论文 本体的构建及其在数字图书馆中的应用以基于本体的论文 检索原型系统为例 姓名:沈磊 申请学位级别:硕士 专业:图书馆学 指导教师:徐一新 20070430 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除了特别 加以标注和致谢的地方外,不包含其他人或其它机构已经发表或撰写过的研究成果。其 他同志对本研究的启发和所做的贡献均己在论文中作了明确的声明并表示了谢意。 作者签名; i 杰磊日期:兰翌2 :兰:, 论文使用授权声明 本人完全了解复旦大学有关保留、使用学位论文的规定,即:学校有权保留送交论 文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部或部分内容,可以采用 影印、缩印或其它复制手段保存论文。保密的论文在解密后遵守此规定。 作者签名:i 垂鑫导师签名:丝二垒习日期:兰1 2 :芏。缱 摘要 传统的论文文献信息组织方式,多是根据文献的外部特征,如题名、责任者、 索取号等作为建立索引的依据,缺点是无法反映文献的语义特征,只能够对其进 行精确查找。而本体作为一种能在语义和知识层次上描述信息系统的概念模型建 模工具,可以有效的应用于信息的组织,为信息检索系统提供语义支持。随着信 息检索应用的普及,传统基于关键词输入的人机交互方式已经不能满足日益扩大 的信息检索用户群的需求。 本文着重对信息检索中的文献组织方式做了深入研究,通过找到有效组织信 息的方式,从而为检索者提供认知帮助以达到提高检索质量和效率的目的。本文 主要工作包括对传统信息检索技术的弊端进行研究和在对本体理论以及本体方 法和工具的总结和比较的基础上,提出了基于本体的信息组织方式和语义推理算 法。 在实验方面,本文选择数字图书馆中论文文献信息检索这个应用环境,设计 实现了论文信息检索原型系统,通过原型系统对所提出的理论和模型给出了实验 验证;该系统能够通过概念放宽的方法,适度的扩大检索结果的范围,也可以精 确领域概念,达到消除二义性和无关结果的目的,从而帮助用户找到所需的文献, 最终达到提高检索效率的目的。 关键词:本体语义检索本体构建方法本体构建工具数字图书馆 中图分类号:g 2 5 a b s t r a c t t h et r a d i t i o n a lm e t h o d so fi n f o r m a t i o nc o n s t r u c t si n d e xa c c o r d i n gt ot h ee x t e r n a l a t t r i b u t i o n s , s u c ha st i t l e ,a u t h o ra n ds e a r c h i n gn u m b e r t h ed e f e c t so ft h i sm e t h o da r e t h a ti tc a n n o tr e f l e c tt h es e m a n t i ca t t r i b u t i o na n di tc a no n l yb es e a r c h e de x a c t l y o n t o l o g ya sam o d e l i n gt o o lw h i c hc a nd e s c r i b et h ec o n c e p t so ft h ei n f o r m a t i o n s y s t e mi nt h el e v e lo fs e m a n t i ca n dk n o w l e d g e ,c a l lh eu s e di ni n f o r m a t i o nr e t r i e v a l e f f i c i e n t l y , a n dp r o v i d et h ei r ( i n f o r m a t i o nr e t r i e v a l ) s y s t e mw i t hs e m a n t i cb a c k u p a st h ei rs y s t e mb e c o m e sm o r ep o p u l a r , t h et r a d i t i o n a lh u m a n - c o m p u t e ri n t e r a c t i o n m e t h o dw h i c hd e p e n d s0 ut h ep o i n t e r sa n dk e y w o r d si n p u tc a n n o ts a t i s f yg e n e r a lu s e r i nt h i sp a p e r , t h ei n f o r m a t i o no r g a n i z a t i o ni ni rs y s t e md u r i n gr e t r i e v a lp r o c e s s i sr e s e a r c h e di nd e p t h b yf i n do u tas u f f i c i e n tw a yt oo r g a n i z ei n f o r m a t i o n , c o g n i t i v e h e l pc a nb ep r o v i d i n gt ot h eu s e r sa n dt h eq u a l i t yo fr e s u l tc a nb ei m p r o v e d t h em a i n w o r ko ft h ep a p e ri st h a t ,w e 坨s e a r c ht h er e l a t e dw o r ko ft h er e s e a r c ho no n t o l o g y , f i n do u tt h es h o r t c o m i n g so ft h et r a d i t i o n a li rm o d e l sa n dc o m p a r em a n yk i n d so f o n t o l o g ym e t h o d sa n dt o o l ss ot h a tt h ea u t h o rg i v ea no r g a n i z a t i o nm e t h o du s i n g m u f t i - o n t o l o g y , a na l g o r i t h mt ob r o a d e nt h ec o n c e p t si nm u f t i - o n t o l o g ya r eg i v e n a sa ne x p e r i m e n t ,w ec h o o s et h ea p p l i c a t i o ne n v i r o n m e n to fp a p e ri n f o r m a t i o n r e t r i e v a li nt h ed i g i t a ll i b r a r y , a n dd e v e l o p e dap r o t o t y p eo fi rs y s t e m t h es y s t e m 伽 a l s oe x p a n dt h er e s u l ts e tm o d e r a t e l yb ym e a n so fb r o a d e nt h ec o n c e p t si n m u f t i - o n t o l o g y , o rg i v et h ea c c u r a t ec o n c e p t si ns o m ef i e l dt od e l e t en or e l a t er e s u l t , w h i c hg i v e st h eu s e r sm o r ec h o i c e , a n df i n a l l yi m p r o v e dt h ee f f i c i e n c yo fr e t r i e v a l k e y w o r d : o n t o l o g y s e m a n t i cr e t r i e v a l a p p r o a c h e si nb u i l d i n go n t o l o g yt o o l s f o re d i t i n go n t o l o g y d i g i t a ll i b r a r y c l a s sn u m b e r :g 2 5 2 1 1 研究背景 1绪论 “知识就是力量”,本世纪以来,人类进行信息生产的能力高速增长,据估 计,7 0 年代以来全世界每年出版图书5 0 万种以上、期刊1 0 万种以上、专利约 5 0 万件、科技报告约9 0 万件、会议文件1 0 万篇、产品样本5 0 多万种,每年发 表的科技论文总数近5 0 0 万篇,并呈指数式增长,真可谓信息浩如烟海,如何从 这浩如烟海的信息中找出所需信息,先进的信息检索技术必须承担起这个重任 【1 l 。 “信息获取的不对等决定了经济、政治发展的不平衡”,对于个人、商家、 企业乃至民族、国家而言,谁能掌握信息的主动权,就能在现代竞争中处于有利 地位。信息检索技术能帮助人们从浩瀚的数据中抽取出对用户有用的信息,能极 大的节省了用户的查询时间。调查数据显示,目前有6 8 2 的人经常使用搜索引 擎,它是目前仅次于电子邮件的网络应用;另外4 1 的人通过搜索引擎进入购物 网站,8 4 6 的新网站是通过搜索引擎被发现。同时,科学证明,搜索引擎是未 知状态下发现有效信息的最有效方式【2 】。这些数据足以表明,先进的信息检索技 术对于网民和商业用户来说,都是极具实用价值的。 随着科学技术的飞速发展,图书馆中数字信息资源也日益增多,人们获取信 息的方式也不再只局限于书本,更多的时候是在利用网上的电子资源。各类学术 论文也逐渐摆脱了传统平面传媒的限制,以电子文档的形式在网上传播。到目前, 复旦大学数字图书馆订购了几十个论文数据库,收录了大量的学术论文,如 “c n 全文期刊数据库”,“维普全文科技期刊库”,“万方期刊”等,其中截止 到2 0 0 6 年7 月,c n k i 已收录8 7 1 0 0 0 0 多篇学术论文。在如此庞大的论文库中, 如何快速有效的检索论文资料也就成为一项重要而迫切的研究课题。 传统信息检索技术都是基于字词的关键词查找和全文检索技术,主要借助于 目录、索引和关键词等方法来实现。此技术的优点是简单、快捷,但其存在四个 较突出的问题1 3 1 。第一,“忠实表达”问题。很多情况下,用户很难简单的用关 键词或者关键词串来忠实的表达他所真正需要检索的内容,表达困难导致检索困 难。第二,“表达差异”问题。人类的自然语言中,随着时间、地域或领域的改 变,同一概念可以用不同的语言表现形式来表达。因此,对同一概念的检索,不 同的用户可能使用不同的关键词来查询,而传统信息检索技术则很难解决同义词 查询的问题。第三,“词汇孤岛”问题。在人的大脑中,概念并不是孤立存在的, 它总是与其他概念之间存在各种各样的联系。在传统信息检索中,这种概念之间 的联系是无法表示的。第四,其过分追求高的查全率导致了检索结果的数量过于 庞大,用户根本没有时间和精力处理检索到的所有结果。总之,在信息快速增长 的今天,传统信息检索机制由于缺乏必要的智能性,难以满足用户的要求,而论 文检索是信息检索技术在具体领域的应用,也存在同样的问题。 造成这些问题的实质原因在于传统的信息检索技术所采用的只是基于语法 层面上的字、词的简单匹配,而缺乏对知识的表示、处理和理解能力。解决这些 问题的关键在于把信息检索从传统的关键字层面提高到知识( 或语义) 层面上。 本体具有良好的概念层次结构和对逻辑推理的支持,现已被广泛应用于知识表 达、知识共享及重用,这正是本文将本体应用于论文检索的重要理论依据。 虽然本体在人工智能、知识表示中已经被广泛讨论和实践,但在我国图书馆 情报界及数字图书馆研究领域中的研究仅仅局限在概念的界定和初步的理论研 究层面上,对于本体的方法论、描述语言、构建工具、具体构建缺乏实践。本文 在讨论本体在数字图书馆中具体作用的基础上,对构建本体的方法论及其构建工 具进行介绍和分析,并且设计了基于本体的论文检索原型系统,希望能够为数字 图书馆中本体的建设和应用提供一个初步的实践基础。 1 2 国内外研究现状及分析 目前本体论是国内外信息领域中研究的热点。但在国内,本体论的研究只处 于起步阶段,而且是概念和理论上的研究多,而本体论真正有价值的应用较少。 在理论研究上,廖明宏于2 0 0 0 年发表的一篇题为本体论与信息检索的文章, 是国内较早论述将本体论应用于信息检索方面的论文。该文试图对本体论做形式 化的描述,并在此基础上讨论本体论的应用:基于本体论的信息检索方法,并指 出这种方法克服了目前基于关键词检索所造成的信息冗余和丢失的不足,其查询 方法更符合人类的思维习惯,查询结果也更合理、可用【4 】。韩毅2 0 0 2 年发表的 基于检索相关性转移的本体论检索系统一文中讨论了在当前情报检索系统的 相关性判断基础上,指出在相关性判断的多维度多层次的复杂概念中用户关心语 用相关,但多数检索系统仅能提供形式相关;该文建议运用本体论的基本原理, 建立本体论的情报检索系统,从而实现检索的语用相关判断1 5 1 。国内较早研究如 何用具体语言描述本体的论文是杨晓青的一种利用r d f ( s ) 建立本体论的方 法,文中介绍了如何使用r d f ( s ) 表示本体论( o n t o l o g y ) 中的对象模型,然后分 析了如何在r d f ( s ) 中表示本体论中的公理 6 1 。李培2 0 0 3 年发表的论文数字图 书馆信息资源本体论的构建,则是国内较早涉及于将本体论应用到数字图书馆 建设中的文章,数字图书馆作为信息的枢纽,也是当今信息化建设的热点。该文 在借鉴国外信息处理领域本体论的理论研究和实践应用最新成果的基础上,根据 数字图书馆信息资源管理的不同层次,从宏观上给出建立数字图书馆信息资源本 体论的3 个层次结构,并从微观上为每一层次提出可操作的方法体系【_ 1 。胡鹤 2 0 0 4 发表的( w e b 本体语言o w l ) 一文则对w 3 c 最新发布的o w l 语言作了 介绍。o w l 是比r d f 功能更强大的以及更恰当的本体论描述语言。文中给出了 o w i 3 个子语言构造成分的含义说明,并比较了3 种子语言间的差别,但没有提 供用o w l 描述本体论关于语义方面的具体应用嗍。 虽然国内对本体论的实际应用较少,但在农业领域方面却迈出了实质的步 伐。中国农业科学院科技文献信息中心曾于2 0 0 2 年和2 0 0 3 年两次派员参与联合 国粮农组织( f a o ) 发起的“农业本体论服务( a o s ) ”研究项目。该项目的成果之 一是国际农业研究信息管理中心( a g r i s c a r i s ) 的“多语农业术语汇编 ( a g r o v o c ) ”系统【9 】,这一系统提供农业词汇查询,其查询方式具有一定的语义特 征,并提供多国语言翻译( 包括中文) 。在此基础上,该信息中心副研究员常春于 2 0 0 4 年3 月申报了国家自然科学基金项目“基于农业叙词系统进行农业本体论 ( o n t o l o g y ) 的构建和转化”,提出了借鉴叙词表构建农业本体论的思路。 国外对本体论的理论及应用研究比国内成熟。起初,本体论是由人工智能领 域的专家引入信息领域的,最早给出o n t o l o g y 定义的是n e e h e s 等人,他们将 o n t o l o g y 定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语 和关系构成的规定这些词汇外延的规则的定义“ i “。自此,在信息系统、知识系 统等领域,越来越多的人研究o n t o l o g y ,并给出了许多不同的定义。随着对本体 论研究的深入,诞生了许多种本体描述语言,w 3 c 不断推出r d f 、o i l 、d a m l o w l 、k i f 、s h o e 、x o l 、o c m l 、o n t o l i n g u a 、c y c l 、l o o m 等技术规范;还 有很多用于建立本体库的工具,如p r o t 6 9 6 、k a o n 、o i l e d 等。这里值得注意的 是r d f 和o w l 规范,万维网联盟f w 3 c ) 于2 0 0 4 年2 月1 0 日发布了它们的推 荐标准。其中,网络本体语言o w l ( d a m l 十o i l 技术结合的产物1 不同于以往 一些语义描述语言,它借助于人工智能技术,是专门用于描述本体论的【“】。 国外较为著名的本体论应用有“朋友的朋友f o a f ( f r i c n d - o f - a - f r i e n d ) ”项 目,它利用x m l 和r d f 来描述你自己你的名字、电子邮件等以及你的朋 友的相关信息。这使得软件可以处理这些描述( 可能作为搜索引擎的一部份检索 信息) ,从而找到你的或是你参与社群的资料。f o a f 有潜力为网络社群发展出 一些新奇的应用1 1 2 1 。另一项较为引人注目的本体论应用项目就是上面提到过的联 合国粮农组织( f a o ) 发起的农业本体论服务项目。自2 0 0 1 起,f a o 已连续举办 了5 届a o s 国际研讨会,其中第五届于2 0 0 4 年4 月在我国北京举行,讨论了与 本体论及语义网相关的很多热点问题1 1 3 1 。 1 3 本文研究的目的和研究内容 本文在对本体基本理论和应用现状系统研究的基础上,并将其应用到数字论 文文献的组织中,丰富了文献索引的语义信息,提出了基于本体的信息检索的新 方式。在此基础上,利用本体具有层次关系的特点,提出了概念放宽的方法或者 缩小精确查询条件的手段,有效的提高了信息检索的查全和查准率,同时提高了 信息的利用率。 本文作者的主要研究如下:( 1 ) 以计算机科学领域的论文检索为应用背景, 提出了基于本体的文档组织方法,设计并编写了论文检索原型系统,通过原型系 统的运行对所提出的理论和模型进行了实验验证;( 2 ) 提出并实现了本体概念放 宽和概念精确的方法,通过原型系统证明了该方法确实能够提供与用户需求接近 的学术文献,并且有助于用户尽快发现有价值的文献。 2 1 本体的定义 2 本体概述 “本体论”最早是哲学中的基本概念,它是研究“是”之所以为“是”的理 论,可以说是哲学中的哲学,甚至可以认为西方哲学的发展就是一个“本体论” 产生、发展、怀疑和批判的过程。如果将本体技术引入数字图书馆技术中,特别 是论文检索技术中去,由于本体具有丰富的语义和广泛的关系,因而将从根本上 解决目前检索中,查询信息语义的多重性、同义性以及信息关系的匮乏。它将变 革现有的数字图书馆中论文检索服务,使之成为智能化的语义检索服务,使论文 检索实现从自动化到智能化的转交。 本体论在哲学中的含义:本体论是西方哲学特有的一种形态,人们把它当作 从柏拉图到黑格尔的西方传统哲学的主干或“第一哲学”,这意味着它是各个哲 学分支的理论基础,是理论中的理论,哲学中的哲学,其它哲学问题都是围绕着 建设、应用或怀疑、反对本体论而展开的。从本体论的发展形态看,它是把系词 “是”以及分有“是”的种种“所是”( 即存在) 作为范畴,通过逻辑的方法构造 出来的先验原理体系。“是”是西方哲学中最抽象,最普遍的范畴,存在和本质 是“是”的两个基本规定性。哲学范畴的“是”与日常语言的“是”是有区别的, 本体论中的“是”的意义就是它的逻辑规定性,这是本体论语言与日常语言的 一个根本区别。日常语言中的词或概念归根结蒂是经验的:它或是指示一个经验 中的对象或者是主观心态的描述,而本体论的语言则是通过其范畴的逻辑规定性 而使“语言”变成了某种独立的特殊王国,这就是本体论哲学的语言秘密,本体 论“通过词的形式具有自身的内容”,本体论语言的这一特性,同本体论的特殊 思想方式一致,它是一种纯粹的思辨哲学。第一位为本体论下定义的是德国哲学 家沃尔夫,他认为:“本体论论述各种抽象的、完全普遍的哲学范畴,在这个抽 象的形而上学中产生出偶性、实体、因果现象等范畴。”所以,本体论是靠从概 念到概念的推演构筑起来的先天的原理系统。 本体在计算机科学中的含义:在哲学中,本体论是一种存在的系统化解释, 将本体论的这种含义用到计算机领域中,人们赋予本体论更具体的意义,为了与 哲学的“本体论”区别开来,笔者建议使用“本体”一词。在计算机领域中,本 体是对概念化对象( c o n c e p t u a l i z a t i o n ) 的明确表示和描述。n i c o l a g u a r i n o 把概念 化定义为:c = ( d ,w ,r ) 其中d 是一个领域,w 是该领域中相关的事务状态( s t a t e o fa f f a i r s ) 的集合,r 是领域空间( d ,w ) 上概念关系( c o n c e p t u a l r e l a t i o n ) 的集合, 本体是采用某种语言对概念化的描述【1 4 1 。因此,本体依赖于所采用的语言,按照 表示和描述的形式化程度不同,可以分为完全非形式化的、半形式化的和严格形 式化。本体形式化程度越高,越有利于计算机进行自动处理。从概念化对象的定 义来看,一个领域中的术语、术语的定义以及术语之间的语义网络应是一个领域 本体应包含的基本信息。 在人工智能界,最早给出本体定义的是n e c h e s 等人,他们将本体定义为“给 出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这 些词汇外延的规则的定义”。1 9 9 3 年,f i r u b e r 给出了本体的一个最为流行的定义 “本体是概念模型的明确的规范说明”i l ”。后来,b o r s t 在此基础上,给出了本 体的另外一种定义:“本体是共享概念模型的形式化规范说明”t 1 6 1 。s t u d e r 等对 上述两个定义进行了深入的研究,认为“本体是共享概念模型的明确的形式化规 范说明州1 。这包含4 层含义:概念模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i o 、形 式化( f o r m a l ) 和共享( s h a r e ) 。“概念模型”指通过抽象出的客观世界中一些现象 ( p h e n o m e n o n ) 的相关概念而得到的模型。概念模型所表现的含义独立于具体的环 境状态。“明确”指所使用的概念及使用这些概念的约束都有明确的定义。“形式 化”指本体是计算机可读的( 即能被计算机处理) 。“共享”指本体中体现的是共 同认可的知识,反映的是相关领域中公认的概念集,即本体针对的是团体而非个 体的共识。本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解, 确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术 语) 和词汇间相互关系的明确定义。 2 2 本体的作用 从一般领域应用的角度来理解,本体主要有以下作用: ( 1 ) 对于领域知识进行分析、明确,并使其形式化 一旦明确说明了一个领域中的各种术语,就可对领域知识进行分析。当要重 用现有本体和扩展现有本体时,对术语的形式化的分析就体现出它的重要价值。 ( 2 ) 在人、机器( 表现为软件代理) 以及人与机器之间共享 对于信息及结构的共同理解这是本体开发最基本的一个目标。采用术语和关 系来编码领域假设。举例说明,假设几个不同的w e b 站点包含医药信息或者提 供医药电子商务服务。如果这些站点之间共享和发布他们共同使用的术语的本 体,那么计算机代理就可以从这些不同的站点中抽取并集合信息,用这些集合的 信息来回答用户的查询请求或作为其它应用的输入数据。 ( 3 ) 实现一定程度的领域知识的重用 促进领域知识的重用推动了本体的研究。下面给出一个本体在领域知识重用 方面的例子,比如有多个不同领域组织的模型均需要表示时间这一概念,时间的 表示包括时间间隔的概念和定义、时间指针( p o i n t s ) 、相关的时间测量方法等。 如果这些领域和组织中有一个组织详细开发了满足要求的本体,其他领域和组织 就可以很方便简单地把这个本体应用到自己的领域中来。此外,如果需要开发一 个大型的本体,可以通过集成描述大型本体某些部分的多个现成的本体来实现。 ( 4 ) 本体可以明确领域假设,使领域公理得到明确描述从而达成共知 通过本体可以明确领域假设,这些领域知识的明确说明对于要了解该领域的 新用户了解该领域中的术语非常有用。如果关于领域的知识发生变化,通过本体 可以非常容易的改变关于该领域的假设。如果关于领域的假设被隐藏到了程序语 言代码中,则这些假设非常难以发现和理解,更难修改,特别是对那些不懂程序 的人而言更是如此。 3 本体的建设 3 1 构建o n t o l o g y 的规则 出于对各自问题域和具体工程的考虑,构造o n t o l o g y 的过程各不相同。目 前没有一个标准的o n t o l o g y 的构造方法。最有影响的是g r u b e r 在1 9 9 5 年提出的 5 条规则【1 5 】: ( 1 ) 明确性和客观性:o n t o l o g y 应该用自然语言对所定义的术语给出明确、 客观的语义定义。 ( 2 ) 完全性:所给出的定义是完整的,完全能表达所描述的术语的含义。 ( 3 ) 一致性:由术语得出的推论与术语本身的含义是相容的,不会产生矛 盾。 ( 4 ) 最大单调可扩展性:向o n t o l o g y 中添加通用或专用的术语时,不需要 修改已有的内容。 ( 5 ) 最小承诺:对待建模对象给出尽可能少的约束。 当前对构造o n t o l o g y 的方法和方法的性能评估还没有统一的标准,因此, 这还是需要进一步研究的方向。不过目前大家公认,在构造特定领域的o n t o l o g y 的过程中需要领域专家的参与。 3 2 领域本体建设过程的基本活动分析 领域知识无穷无尽,数据也难以计数。如何才能从海量的数据资料中整理出 领域本体? 参照信息系统中概念模型设计的过程,领域本体建设的基本活动可以 包括: ( 1 ) 需求分析;确定本体应用的目的、范围、表示方法和用途等。领域本 体建设要以应用需求为牵引,要对人类在认识世界的过程中所形成的不同“本体” ( 知识体系) 进行认真的分析。 ( 2 ) 概念化:通过各种渠道获得领域本体的主要概念,确立概念间的等级 关系,并用精确无歧义的术语加以描述,生成该领域本体的核心语义内容。 ( 3 ) 编码:利用形式化描述语言对“概念化”的领域本体进行编码,使得 机器易于处理。尽量将相关领域内已经存在的本体集成到自己的领域本体中,一 方面避免重复建设,一方面可通过交流合作形成领域内共享的本体。 ( 4 ) 确认与评价:对领域本体需要按照一定的标准进行确认和评价,包括 本体的清晰性、一致性、可扩展性等方面。 ( 5 ) 维护与进化:随着领域知识的增加,本体需要不断更新、不断进化、 增加本体概念、完善本体概念间的语义关系。 3 3 领域本体构建过程中的难点 从目前的情况来看,领域本体的建设处于探索性研究阶段,在这个过程中存 在着很多问题,对不同问题的认识和解决会得出不同的方法论。笔者将其主要问 题分析如下: ( 1 ) 需求不充分 本体的普遍概念和积极作用已经为广大研究者所共识,但是,究竟本体建设、 特别是某个领域的本体建设的具体需求是什么,还很难描述清楚。没有充分的需 求,直接导致本体建设过程的无计划性,在建设过程中可能需要重新计划,从头 开始。 ( 2 ) 建设过程无规范 领域本体构建还没有成熟的方法论作为指导,更不用说对建设过程的规范管 理。但是,至少从软件开发过程的管理中,可以看出文档的重要作用。因此,在 领域本体构建过程中同样也得关注文档,从文档的编写中总结出规范。 ( 3 ) 成果没有评价标准 本体的评价方法没有统一的标准,更没有标准的测试集。不能对本体的建设 成果进行合理评价,必然影响到下一个周期中的进化过程。 ( 4 ) 缺少本体进化的方法 本体进化的是必然和重要的,但是在实践过程中,如何维护本体,促进本体 的进化,并没有得到很好的研究和支持。 ( 5 ) 忽视本体的共享和重用 领域本体构建的目的不是为某一个系统提供服务,而是为不同系统提供进行 交流的语义基础。并且,本体建设的过程,也是人类知识机器化积累的一个过程。 因此,共享和重用是本体的本质要求,在领域本体的建设过程中,如何保证这一 点这是非常重要的问题。 3 4 几种常见的本体建设方法 本体建设的方法已经成为新的研究热点,在本体建设项目的实践中产生了一 些方法。由于学科领域不同,具体的应用也不同,其建设过程也各不相同。本节 将简要介绍几种常见的本体建设方法。 3 4 1i d e f i d e f 的概念是在2 0 世纪7 0 年代提出的,它在结构化分析方法的基础上发展起 来的。1 9 8 1 年美国空军公布的i c a m ( i n t e g r a t e dc o m p u t e ra i d e dm a n u f a c t u r i n g ) 工程中首次用了名为“i d e f ”的方法l “。i d e f 是i c a m d e f i n i t i o n m e t h o d 的缩写, 到目前为止它已经发展成为一个系列。i d e f 提出的本体建设方法包括以下五个步 骤:( 1 ) 组织和范围确定本体建设项目的目标、观点和语境,并为组员分配 角色。( 2 ) 数据收集收集本体建设需要的原始数据。( 3 ) 数据分析分析数据, 为抽取本体做准备。( 4 ) 初始化的本体建立从收集的数据当中建立一个初步的 本体。( 5 ) 本体的精炼与确认完成本体建设过程。i d e f 方法提供了一种结构化 的方法,利用该方法,领域专家可以有效的开发和维护领域本体。i d e f 构建本体 的方法在于获取现实世界客观对象的定义,以及它们的属性和它们之间的内在联 系。 3 4 2 骨架法 m i k eu s h o l d m i c h e a lg r u n i n g e r 的骨架法( s k e l e t a lm e t h o d o l o g y ) 在企 业本体基础之上,是相关商业企业闻术语和定义的集合【1 9 】。该方法只提供开发本 体的指导方针。包括如下步骤:( 1 ) 确定本体应用的目的和范围根据所研究的 领域,建立相应的领域本体。领域越大,所建本体越大。因此需要限制本体的领 域范围。( 2 ) 本体分析定义本体内所有术语的意义及术语之间的关系。对该领 域了解得越多,所建本体就越完善。( 3 ) 本体表示一般用语义模型表示本体。 ( 4 ) 本体的评价建立本体的评价标准是清晰性、一致性、完善性、可扩展性。 清晰性就是本体中的术语应被无歧义的定义;一致性是指术语之间关系逻辑上应 一致;完整性是指本体的概念及关系应是完整的,包括该领域内所有概念,虽然 很难达到,但应不断完善;可扩展性是指本体应用能够扩展,在该领域发展过程 中能加入新的概念。( 5 ) 本体的建立对所有本体按上述标准进行检验,符合要 求的以文件形式存放,否则重新进行本体分析。如此循环往复,直到对所有步骤 的检验结果均达到要求为止。 3 4 3l o v e 法 m i c h e a lg r u n i n g e r m a r k sf o x 的企业建模法( t o v e ) 用于t o v e 项目中, 该项目是多伦多大学e i l 实验室( e n t e r p r i s ei n t e g r a t i o nl a b o r a t o r y ) 的一个项 目【刎。它的目标是建立一套为商业和公共企业建模的集成本体,并且已经建成了 相关本体。作为该项目的一部分,他们设计了一套创建和评价本体的方法 “e n t e r p r i s em o d e l i n gm e t h o d o l o g y ”。该方法主要分为以下步骤:( 1 ) 激发 场景应用领域的某些场景可以激发本体的建设,因此,给出一个场景有助于理 解建设本体的动机。( 2 ) 非形式化的能力问题提出一个本体应该能够回答的各 种问题。通过指明能力问题和场景之间的关系,可以对新扩展的本体进行一定的 非形式化的判断,这也是一种初始的评价来判断是否需要扩展本体或者现有本体 是不是已经可以涵盖所提出的非形式化问题。( 3 ) 术语的规范化从非形式化能 力问题中提取非形式化的术语,然后用o n t o l o g y 形式化语言进行定义。( 4 ) 形 式化的能力问题把非形式化的能力问题用形式化的术语定义出来。( 5 ) 形式化 公理本体中的公理指定了术语的定义以及约束,将公理用一阶谓词逻辑表示出 来,这只是本体的规格说明,并不是本体的实现。( 6 ) 完备性定理当能力问题 都被形式化的表述之后,必须定义在什么条件下这些问题的解决方案是完备的。 m e t h o n t o l o g y 法专用于构建化学本体( 有关化学元素周期表的本体) ,该方法 已被马德里大学理工分校人工智能图书馆采用1 2 。它的流程包括:( 1 ) 管理阶 段这一阶段的系统规划包括任务的进展情况、需要的资源、如何保证质量等问 题。( 2 ) 开发阶段分为规范说明、概念化、形式化、执行以及维护五个步骤。 ( 3 ) 维护阶段包括知识获取、系统集成、评价、文档说明、配置管理五个步骤。 目前,用这种方法开发的本体有:( o n t o ) 2 a g e n t 是基于本体的w e b 代理,使用参 考本体作为知识源,在一定的约束条件下进行新知识获取的工具;化学本体是基 于本体的化学教育代理,允许学生在学习的基础上自测本身在该专业领域内所达 到的水平;o n t o g e n e r a t i o n 使用化学领域本体和语言本体来生成西班牙语的描 述,并把这些描述作为对学生关于化学领域问题查询的答案。 3 4 5 以c t u s i ( a c t u s 工程法是基于k a c t u s 项目而产生的。k a c t u s 是关于多用途复杂技术系 统的知识建模工程英文的缩写,是欧洲e s p r i t 框架下的研发项目之一l 捌。该项目 的目的是开发出技术系统全生命周期的知识重用方法学,以便在设计、诊断、操 作、维护、再设计和培训时使用同一知识库。该方法主要包括:( i ) 应用说明提 供应用的上下文和应用模型所需的组件。( 2 ) 相关本体范畴的初步设计搜索已 存在的本体,进行提炼、扩充。( 3 ) 本体的构造用最小关联原则来确保模型既 相互依赖,又尽可能一致,以达到最大限度的系统同构。 3 4 6s e n s u s s e n s u s 法是开发用于自然语言处理的s e n s u s 语言本体的方法,由美国u s c i s l 研制开发。i s i 自然语言研究小组旨在为机器翻译提供广泛的概念结构。 s e n s u s 为机器翻译提供概念结构,用该方法开发的s e n s u s 本体系统用于自然语言 处理程序。目前s e n s u s 语言本体共包括电子科学领域的7 ;y 概念【冽。为了能在 s e n s u s 基础上构造特定领域的本体,必须把不相关的术语从中剪除。s e n s u s 本体 的构造流程如下:( 1 ) 定义“叶子”术语;( 2 ) 用手工方法把叶子术语和s e n s u s 术语相连;( 3 ) 找出叶子节点至u s e n s u s 根节点的“路径”;( 4 ) 增加和s e n s u s 本体中的域相关但是还未出现在s e n s u s 本体中的概念;( 5 ) 用启发式思维找出 全部特定域的术语:某些有两条以上的路经过的节点必是一棵子树的父节点,那 么这棵子树上的所有节点都和该域相关,是要增加的术语。对于高层节点则通常 有多条路径经过。现在,使用s e n s u s 法所构建的本体包括武器、原油、飞机等用 于军事领域的本体。 3 4 7 七步法 斯坦福大学医院开发的七步法,主要用于领域本体的构建【矧。七个步骤分别 是:( 1 ) 确定本体的专业领域和范畴;( 2 ) 考查复用现有本体的可能性;( 3 ) 列出本体中的重要术语;( 4 ) 定义类和类的等级体系;( 5 ) 定义类的属性;( 6 ) 定义类的分面( f a c e t s ) ;( 7 ) 创建实例。 3 4 8 本体构建方法的比较和总结 下面对于上述的一些方法做出比较和总结。i e e e l 0 7 一1 9 9 5 标准是软件开发 生命周期的标准,并不是本体构建方法的标准。但是从广义上讲,本体构建方法 也属于知识工程领域中的一种软件开发方法。将上述7 种方法体系从工程管理阶 段、开发前期、需求分析、设计、执行、开发后期及统一阶段七个方面与i e e e l 0 7 4 1 9 9 5 标准进行比较,可以发现现有本体构建方法作为软件开发方法的不完善 之处,以及它们不同于一般软件开发方法的特别之处。( 1 ) 从工程管理阶段看, i d e f 5 法、t o v e 法、骨架法、k a c t u s 法、s e n s u s 法都没有,m e t h o n t o l o g y 法和 七步法不全,没有建立工程环境阶段;( 2 ) 从开发前期看,七种方法均没有; ( 3 ) 从需求分析看,七种方法都有;( 4 ) 从设计看,骨架法和s e n s u s 法没有, 其它方法有;( 5 ) 从设计看,七种方法都有;( 6 ) 从开发后期看,m e t h o n t o l o g y 法和七步法不全,没有安装、操作、支持、维护和训练阶段,其它方法没有;( 7 ) 从统一阶段看,t o v e 法、艇t h o n l o g y 法及七步法不全,没有训练、环境学习和 配置管理,其它方法则没有。 从生命周期、相关技术、本体的应用和方法细节四个方面比较这七种方法, 可以看出:( 1 ) 在生命周期方面,m e t h o n t o l o g y 法有生命周期,t o v e 法和七步 法不是真正的生命周期,而其它方法则没有生命周期;( 2 ) 在相关技术方面, 七步法有m e t h o n t o l o g y 法有,但不全,其它法则不确定;( 3 ) 在本体的应用方 面,t o v e 法、骨架法和k a c t u s 法只应用于一个领域,其它方法则用于多个域;( 4 ) 在方法节文献方面,t o v e 法少,骨架法和l ( a c t u s 法很少,其它方法则详细。 由以上两个比较结论不难看出:( 1 ) 与i e e e 标准相比较,没有一种方法是 完全成熟的;( 2 ) 七种方法均允许在系统间进行互操作;( 3 ) 七种方法均提供 知识共享和复用的机制;( 4 ) 七种方法的成熟度依次为:七步法 m e t h o n t o l o g y 法 i d e f 5 法 t o v e 法 骨架法 s e n s u s 法 k a c t u s 法。 综合上述方法,可以从中总结出本体的构建原则:( 1 ) 本体的构建要面向 特定的应用目的;( 2 ) 本体的构建应该基于一定的专业领域、学科背景或研究 课题;( 3 ) 本体中包含的概念数目应该尽可能的最小化、尽可能将冗余去除; ( 4 ) 本体的规模应该是有限增长的;( 5 ) 本体中的“类”的设计应当秉承独立 性原则,即这个类可以独立存在,不依赖于某个课题或某个学科专业;( 6 ) 类 的设计还应当秉承共享性原则,即类一旦被确定,就一定有被复用的可能和必要。 而下面章节笔者会根据数字资源的情况和现有的实验条件,尝试的提出一种构建 该论文检索原型系统所需领域本体的方法。 3 5 本体开发工具 3 5 1 l i n k f a c t o r y l i n k f a c t o r y 是由欧洲l a n g u a g ea n dc o m p u t i n gn v 开发的一个形式化本体管 理系统,用来建设和管理非常庞大和复杂的独立于语言的形式化本体【矧。 l i n k f a c t o r y 由两个主要的组件构成:i i n k f a c t o r y 和w o r k b e n c h ( 客户端组件) ,两 个组件都用j a v a 开发。 在服务器端,l i n k f a c t o r y 把数据存储在关系数据库中。数据库的访问被抽 象成处理本体的一个功能集:获取子集、发现路径、合并概念、从概念中获取术 语等。软件客户端通过标准的a p i 访问这些功能,在对数据库内部结构不了解的 情况下,这些a p i 实现在语义数据库顶层的应用。这个组件能够处理多个并行用 户,且独立于平台。应用要求运行r m i 注册( 一种r m i 服务器的域名服务器) , 从而使客户能够连链接到r m i 服务器。w o r k b e n c h 组件允许用户对多个本体浏 览和建模。w o r i i b e n c h 是通过j a v ab e a n s 实现的一个动态框架,每一个b e a n s 有 其特定的功能,其视图对潜在的形式化本体显示有限,但通过合并一系列b e a n s 可为用户提供浏览和管理数据的有效工具。j a v ab e 孤s 的例子有:概念树、概 念准则、概念的详细定义、链接类型树、规则列表、术语列表、搜索格( p a n e l ) 、 属性格( p a n e l ) 、反向关系等。用户可以利用这些b e a n s 生成多个视图,这些视图 称为布局。每一个布局由多个框架构成,用来放置b e a n s ,可以在b e a n s 之间生 成链接。j a v ab e a n s 不仅可以在l i n k f a c t o r y 、w o r k b e n c h 中实现相互之间的连接 而且可以用于工作空间之外,从而使软件开发者可以把它们集成为一个组件,用 于他们自己的程序中。 3 5 20 l l e d o i l e d 是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论