(计算机应用技术专业论文)领域本体构造中数据源选取及构造方法的研究.pdf_第1页
(计算机应用技术专业论文)领域本体构造中数据源选取及构造方法的研究.pdf_第2页
(计算机应用技术专业论文)领域本体构造中数据源选取及构造方法的研究.pdf_第3页
(计算机应用技术专业论文)领域本体构造中数据源选取及构造方法的研究.pdf_第4页
(计算机应用技术专业论文)领域本体构造中数据源选取及构造方法的研究.pdf_第5页
已阅读5页,还剩130页未读 继续免费阅读

(计算机应用技术专业论文)领域本体构造中数据源选取及构造方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学博士学位论文 摘要 本体构造方法的研究有利于本体的广泛应用和推广,尤其对w w w 向下一个版本转 化具有现实意义。目前,本体构造多侧重在方法过程的研究,如果能够加强对本体数据 源内部特征的分析,会进一步减少有效信息丢失、无用数据被采用等问题。本文在详细 分析数据源特点的基础上,分别提出文档分解模型,输入输出驱动模型以及两层向量空 间模型,并集成神经网络、模糊f c a 等多种智能方法,建立本体手工和( 半) 自动构造 方法,并实现一个本体构造工具。主要研究内容和结果如下: ( 1 ) 本体数据源选取研究。本体数据源选取效果直接影响本体构造的质量,目前本体 数据源的研究大多集中在文本数据源的研究。对文本数据源的分析不仅要考虑术语、概 念在文档中的频率及含有术语文档在整个文档中的百分率,而且还要考虑术语在文档中 的位置信息、文档标引源的位置特性。本文通过文档分解模型的建立,利用抽象方法, 完成对本体数据源的概念性、关系性和预测性等特点的分析。并针对这些特点分别采用 改进的v s m 方法、基于本体关系距离以及神经网络的方法计算相关权值。同时,本文采 用j a v a + o r a c l e 技术,完成本体数据源选取系统的设计与实现,通过“湿地保护 相关的 真实文档验证该方法,得到较好的选取结果。 ( 2 ) 特殊领域本体的手工构造湿地保护领域本体的构造方法研究。建立“数字化” 湿地的目的是实现湿地的知识管理和信息共享,而湿地本体的构造,是达到此目标的基 础。本文通过对现有手工构造本体技术分析的基础上,提出构造湿地保护本体的方法 w p o n t o 方法,以输入输出驱动模型完成本体数据源的组织,把相关知识进行归类 并建立知识集,对概念、关系细化提取,实现本体编码及形式化表示。另外,本文还对 湿地保护本体应用进行研究,包括信息共享和知识管理两个部分。 ( 3 ) 利用w e b 资源完成本体构造方法研究,不仅会缩短本体的构造周期,而且还会 扩大本体的应用范围。但基于w e b 的数据提取、知识获取比较困难,与实际应用相比还 有一定的距离。本文分析基于w e b 本体构造数据源的动态、海量、异质、变化、开放性 等特点,本体构造的基础问题形式化表示方法,总结本体构造的关键技术及技术难 点。设计一个基于w e b 本体构造系统架构,为实现基于w e b 领域本体构造方法提供一 个框架性的思路。 ( 4 ) 本体学习工具实现研究。为构造出一个效率、准确率较高的本体学习工具,本文 采用面向对象思想的分析方法,把传统的单层文本向量空间模型改进为两层向量空间模 型( d o u b l ev e c t o rs p a c em o d e l ,简称d v s m ) ,该模型不仅具有属性特性,而且还具有很 强的关系特性。在此模型的基础上,引入f f c a ( f u z z yf o r m a lc o n c e p ta n a l y s i s 模糊形式 领域本体构造中数据源的选取及构造方法的研究 概念分析) 本体学习技术。该技术充分考虑d - v s m 模型中数据分布特点,较好地解决本 体学习通用性、本体关系获取等问题。基于上述方法实现一个本体学习工具,为本体的 ( 半) 自动构造提供有力的支持。 综上,本文给出本体构造几个关键问题的研究:在文档分解模型基础上,建立一个 本体数据源选取系统;在输入输出驱动模型的基础上,提出湿地保护领域w p o n t o 本体 手工构造方法;在两层向量空间模型的基础上,分析w e b 数据特点,并结合模糊f c a 方法,实现一个本体学习工具。以本体数据源选取为基础,在本体手工构造和( 半) 自 动构造两个方面进行有效的研究,取得了较好的结果。 关键词:本体构造;本体数据源;湿地保护领域本体;向量空间模型;本体学习 i i 大连理工大学博士学位论文 a b s tr a o t n l er e s e a r c ho no n t o l o g yc o n s t r u c t i o nm e t h o di sn e c e s s a r yf o rt h ew i d e l yo n t o l o g y a p p l i c a t i o n ,a n dp l a y sap r a c t i c a lr o l ea n dv a l u ei nt h ec o n v e r s i o nt ot h en e x tg e n e r a t i o no f w w w t h ec u r r e n to n t o l o g yc o n s t r u c t i o nr e s e a r c hs e l d o mf o c u s e so nt h ea n a l y s i so fi n t e r n a l f e a t u r e si ni n f o r m a t i o ns o u r c e ,b u tm o s t l yo nt h ep r o c e s sa n a l y s i so ft h em e t h o d ,s ob e t t e r a p p l i c a t i o np e r f o r m a n c ei sd i f f i c u l tt oa c h i e v e b a s e do na ni n t e n s i v ea n a l y s i so fi n f o r m a t i o n s o u r c e ,t h i ss t u d yp r o p o s ead o c u m e n td e c o m p o s i t i o nm o d e l ,a ni n p u t - o u t p u tm o d e la n da d o u b l ev e c t o rs p a c em o d e l ,a n dt h e s em o d e li n t e g r a t em a n yi n t e l l i g e n tm e t h o d s ,s u c ha s a r t i f i c i a ln e u r a ln e t w o r k sa n df u z z yf o r m a lc o n c e p ta n a l y s i s b a s e do nt h e s er e s u l t s ,m a n u a l a n da u t o m a t i cc o n s t r u c t i o nm e t h o d sa r ed e r i v e df o ro n t o l o g yc o n s t r u c t i o nt o o l s t h em a i n r e s e a r c ha n dr e s u l t sa r ea sf o l l o w s : ( 1 ) i n f o r m a t i o ns o u r c ei st h ek e m e la n dc r i t i c a lf o rb u i l d i n gd o m a i no n t o l o g yw i t hm g a r d t oo n t o l o g yq u a l i t ya n de f f i c i e n c y c o n s i d e r a b l ep r o g r e s sh a sb e e na c h i e v e di nt h i sr e s p e c t ;y e t , t r a d i t i o n a lm e t h o do n l yt a k e st h ef r e q u e n c yo rp e r c e n t a g eo ft e r m sa n dc o n c e p t si nt h ew h o l e d o c u m e n ti n t oa c c o u n t ,b u td on o tt a k et h el o c a t i o ni n f o r m a t i o ni n t oc o n s i d e r a t i o n ,w h i c hl e a d s t oal o wa c c u r a c y v i aa na b s t r a c tm e t h o da n a l y s i s ,t h i sp a p e rc o n s t r u c t sad o c u m e n t d e c o m p o s i t i o nm o d e la n d i tf i r s t l ya d d r e s s e st h ec h a r a c t e r i s t i c so fi n f o r m a t i o ns o u r c e ,s u c ha s c o n c e p t i o n ,r e l a t i o na n dp r e d i c t a b i l i t y ;t h e n ,t h e s ec h a r a c t e r i s t i c sw e i g h t sa r ed e t e r m i n e db y t h ei m p r o v e dv e c t o rs p a c em o d e l ( v s m ) ,o n t o l o g yr e l a t i o nd i s t a n c ea n dn e u r a ln e t w o r k r e s p e c t i v e l y b a s e do nj a v a + o r a c l et e c h n i q u e ,t h es t u d yd e s i g na n di m p l e m e n tt h ei n f o r m a t i o n s o u r c es e l e c t i o ns y s t e m b yt h i ss y s t e m ,t h ed o c u m e n tw e i g h t sa r eo b t a i n e db yt r a i n i n ga n e u r a ln e t w o r kw i t hs i m u l a t e dd a t a c o m b i n e dw i t har e a ld o c u m e n td a t as e to f “w e t l a n d p r o t e c t i o n ”,t h em o d e li st e s t e da n dag o o do r d e re f f e c to nt h ed o c u m e n ts e l e c t i o ni sa t t a i n e d ( 2 ) m a n u a lm e t h o df o ro n t o l o g yc o n s t r u c t i o ni ns p e c i f i cd o m a i 玎w e t l a n dp r o t e c t i o n d o m a i no n t o l o g y t h ep r i m a lo b je c t i v eo ft h es t u d yi st ob u i l dd i g i t i z e dw e t l a n da n dr e a l i z e k n o w l e d g em a n a g e m e n ta n di n f o r m a t i o ns h a r i n g w e t l a n do n t o l o g yi st h eb a s i st oa c h i e v et h i s o b je c t i v e t h ea n a l y s i sr e s u l ti n d i c a t e st h a tt h ec u r r e n to n t o l o g yt e c h n i q u e ss u f f e rf r o mt h e m a n yd i s a d v a n t a g e s , s u c ha s i n s u f f i c i e n c yd e m a n d , n op l a n n i n g ,n of o r m a l i z a t i o na n d i g n o r a n c eo fo n t o l o g ys h a r i n ga n dr e u s i n g t oo v e r c o m et h e s ed i s a d v a n t a g e s ,t h es t u d y p r o p o s e st h ew p o n t o ( w e t l a n dp r o t e c t i o no n t o l o g y ) m e t h o d i tb e g i n sw i t had e m a n d a n a l y s i so fw e t l a n dp r o t e c t i o nd o m a i n ,f o l l o w e db yt h eb u i l d i n go fa ni n p u t - o u t p u td r i v e n m o d e lw i t ha no b j e c to fw e t l a n dr e s o u r c e s t h em e t h o di st h e nu s e dt oc o l l e c tc o n c e p t sa n d t e r m sr e l a t e dt ow e t l a n dp r o t e c t i o n ,a n dg e n e r a t er e s p e c t i v e l ye v e r yk n o w l e d g es e ti nt h e d r i v e nm o d e l ;f i n a l l y ,i tg o e st h r o u g hr e f i n e m e n t ,e x t r a c t i o n ,a n ds u p p l e m e n tb e f o r ei t s i i i 领域本体构造中数据源选取及构造方法的研究 e s t a b l i s h m e n t b e s i d e ,t h es t u d ya l s of o c u s e so nt h ea p p l i c a t i o no fw e t l a n do n t o l o g y ,a n di t c o n s i s t so fi n f o r m a t i o ns h a r i n ga n dk n o w l e d g em a n a g e m e n t ( 3 ) m e t h o d o l o g yo fo n t o l o g yb u i l d i n gb a s e do nw e b r e s o u r c e sw i l ln o to n l ys h o r t e nt h e c o n s t r u c t i v ep e r i o do ft h eo n t o l o g y ,b u ta l s oe x t e n dt h ea p p l i c a t i o nf i e l do ft h eo n t o l o g y al o t o fp r o g r e s sh a sb e e nm a d e ,b u tt h e r ea l es t i l ls o m ed i f f i c u l t i e s ,s u c ha st h ew e bd a t ae x t r a c t i o n a n d k n o w l e d g ea c q u i s i t i o n t i l i sp a p e rf o c u s e so nt h ec h a r a c t e r i s t i c so fo n t o l o g yc o n s t r u c t i o n d a t a , s u c ha sd y n a m i c s ,l a r g e n e s s ,v a r i a t i o na n do p e n n e s s ;t h ef u n d a m e n t a lp r o b l e m - 1 b r m a l r e p r e s e n t a t i o nm e t h o d t l i sp a p e ra l s oc o n c l u d e st h ek e yt e c h n i q u ea n dd i f f i c u l t yo fo n t o l o g y c o n s t r u c t i o n 。a ni n i t i a ls y s t e ms t r u c t u r eh a sb e e np r o p o s e d ,w h i c hp r o v i d e sag u i d e l i n ef o r o n t o l o g yc o n s t r u c t i o nb a s e do nw e b ( 4 ) t 0b u i l da r te f f i c i e n ta n da c c u r a t eo n t o l o g yl e a r n i n gt o o l ,t h i sp a p e rp r o p o s e dad o u b l e v e c t o rs p a c em o d e l ( d v s m ) t h a td e v e l o p e df r o mt h ec l a s s i c a ls i n g l ev e c t o rs p a c em o d e lb a s e d o nt h eo b j e c t o r i e n t e di d e a t h em o d e lh a sn o to n l ya t t r i b u t ec h a r a c t e r sb u ta l s os t r o n gr e l a t i o n c h a r a c t e r s o nt h eb a s i so ft h i sm o d e l ,f u z z yf o r m a lc o n c e p ta n a l y s i s ( f f c a ) o n t o l o g yl e a r n i n g t e c h n o l o g yi si n t r o d u c e db e c a u s ei tc o n s i d e r st h ed i s t r i b u t e dp r o p e r t yo fd a t ai nt h ed v s ma n d i s p r e d o m i n a n tt o s o l v et h ep r o b l e m sa b o u to n t o l o g yc o n t i n u i t y ,o n t o l o g y r e l a t i o n s h i p o b t a i n m e n t ,e t c a no n t o l o g yl e a r n i n gt o o lh a sb e e ni m p l e m e n t e db a s e do nt h em e t h o da b o v e ; a n di ti sap o w e r f u ls u p p o r tf o ra u t o m a t i c s e m i a u t o m a t i co n t o l o g yc o n s t r u c t i o n i ns u m m a r y ,t h es t u d yp r e s e n t ss e v e r a li m p o r t a n tr e s e a r c hr e s u l t so n o n t o l o g yc o n s t r u c t i o n : am e t h o dt ob u i l da no n t o l o g yi n f o r m a t i o ns o u r c es e l e c t i o ns y s t e mb a s e do nt h ed o c u m e n t d e c o m p o s i t i o nm o d e l ;am a n u a lo n t o l o g yc o n s t r u c t i o nm e t h o d 、 伊o n t of o rw e t l a n d p r o t e c t i o nd o m a i n ;a no n t o l o g yl e a r n i n gt o o lb a s e do nt h e a n a l y s i so fw e bd a t aa n d c o m b i n a t i o no ff f c am e t h o d b a s e do nt h ei n f o r m a t i o ns o u r c es e l e c t i o nm e t h o d t h es t u d y m a k e sau s e f u li n v e s t i g a t i o nt om a n u a la n da u t o m a t i co n t o l o g yc o n s t r u c t i o nm e t h o d ,a n dt h e g o o dr e s u l t sa l eo b t a i n e d k e yw o r d s :o n t o l o g yc o n s t r u c t i o n ;o n t o l o g yd a t as o u r c e ;w e t l a n dp r o t e c t i o nd o m a i n o n t o l o g y ;v e c t e rs p a c em o d e l ;o n t o l o g yl e a r n i n g i v 独创性说明 作者郑重声明:本博士学位论文是我个人在导师指导下进行的研究工作 及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学 或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究 所做的贡献均已在论文中做了明确的说明并表示了谢意。 大连理工大学博士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名:盘盏 导师签名: 大连理工大学博士学位论文 1 绪论 本体的概念起源于哲学领域,是概念模型明确的规范说明。它在人工智能、知识工 程、语义w e b 等领域所起的作用得到了广泛的认可【l 叫。本体构造方法的研究是目前世界 上一个重要的研究课题【7 ,8 】。构造本体,可以解决用户间或软件代理间达成对于信息组织 结构的共同理解和认识,可以复用专业领域知识,使专业领域内的假设变得更加明确, 将专业领域知识从知识管理的环境中剥离出来,并且可以分析专业领域的知识体系结构。 这项研究对本体的推广和广泛应用具有重要的实际意义 9 - 1 3 】。本文针对本体构造的复杂 性,研究如何高效、准确的构造本体并给出具体实现方法。本章首先讲述研究背景与意 义,然后分析目前本体数据源选取和本体构造所用研究方法,最后构建论文的整体框架, 并给出本文主要研究内容。 1 1 本体构造研究背景与意义 互联网己成为人们获取信息的途径,其规模也以惊人的速度增长着。然而,当前互 联网上的绝大多数信息是以人类能理解的格式来表示的,而作为智能程序的软件代理并 不能理解和处理这些信息,互联网的潜力还远远没有挖掘出来。为了解决这个问题,w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 的研究人员提出了下一代互联网的概念语义w e b 【1 4 1 。 在语义w e b 上,信息是以结构化的形式表示的,而本体则描述了其中的语义【l5 1 。当信息 用本体来标记后,软件代理就能理解其意义,也就可以自动完成互联网上的信息收集和 集成。语义的实现很大程度上依赖于本体的建立,同时本体也越来越广泛地应用到很多 领域。 相对于因特网上海量信息而言,目前存在的本体数量非常少。本体构造是一个非常 复杂的过程,它需要多个领域专家的参与。本体一词来源于哲学,它指的是一种存在的 系统解释。近年来,在计算机科学中关于本体的研究越来越多。最常用或最多地被引用 的本体定义是:“本体是一个共享概念化、形式化、显式的说明。,“概念化”是指世 界中现象的一个抽象模型,用来确定这些现象的相关概念;“显式”意味着所采用概念 的类型和它们应用的约束进行显式的定义;“形式化 是指本体中的事实应是机器可读 的:“共享 反映本体应捕捉该领域中一致公认的知识。目前,本体已经被广泛应用于 语义、智能信息检索、信息集成、数字图书馆等领域。本体的应用实例包括:( 1 ) 电子商 务网站:本体有助于商家和客户之间实现基于机器的通信,使得市场的垂直集成为可能。 并使得商品的描述能在不同的市场重用;( 2 ) 搜索引擎:本体能帮助实现跨越目前基于关 领域本体构造中数据源选取及构连t 7 5 - 法的研究 键词的搜索,并可找到包含语法不同但语义相似的词或旬的页面。( 3 ) w e b 服务:本体可 提供易于被智能a g e n t s 所理解的语义丰富的服务描述。 本体构建工具,从最早的o n t o l i n g u a 16 1 ,o n t o s a u r u s 1 7 1 ,w e b o n t o 1 引,到p r o t e g e 1 9 1 , w e b o d e 2 0 1 ,o i l e d 2 1 1 ,o n t o e d i t 2 2 1 ,以及k a o n 2 3 】等,本体构建工具日趋成熟。这些工 具提供了友好的图形化界面和一致性检查机制。借助这些工具,用户可以把精力集中在 本体内容的组织上,而不必了解本体描述语言的细节,而且避免了很多错误的发生,方 便了本体的构建。本体定义了用于描述和表示领域知识的术语,它用于人、数据库和应 用之间共享信息,是实现语义的关键。它通常表达为一组对象( 概念) 、关系、函数、定理 和实例。本体中的概念通过应用继承机制以层次化方式组织;关系代表领域概念之间的 一类相互作用;函数是关系的一种特例;公理用于永为真的句子的建模:实例用于代表 元素。本体通常以基于逻辑的语言来表示,因此可在类、属性和关系之间作出详细、准 确、一致且完备的区别。一些本体工具采用本体论进行自动推理并为智能应用提供高级 服务。 本体研究虽然并非始于计算机研究领域,但是自2 0 世纪9 0 年代以来,随着知识共 享、信息集成、语义和服务等技术的快速发展,本体研究在计算机领域倍受关注,并逐 渐成为研究的前沿和热点【2 4 】。本体是一个多领域交叉的概念,本体研究既包括对本体自 身各种技术的理论研究,也包括本体与其它具体研究领域相结合的应用研究。本体己经 成为人工智能和知识工程中一种重要的工具,在知识的获取、表示、分析和应用等方面 具有重要的意义。 本体研究促进知识工程中对本质知识的获取【2 5 1 。知识工程的研究方向主要包含知识 获取、表示和推理方法等,其研究目标是挖掘和抽取人类知识,用一种特定形式表示这 些知识,使之成为计算机可操作的对象,从而使计算机“具有 一定的智能。知识是知 识工程研究的焦点,是计算机实现智能的基础。而本体研究实体的存在性和实体存在的 本质,这是深层上的知识,是本质上的知识。对这部分知识的获取、表示、分析和应用 也是知识工程的重要内容。因此,本体把知识工程研究中的知识向更深入、更本质的方 向推进【2 6 2 7 1 。 本体研究实现显式地表示出领域知识和领域假设。领域知识包括领域概念、概念的 性质,概念之间的关系、概念之间的一般规律等。领域本体的研究要求根据概念之间的 类属关系显式地建立概念之间的联系,明确定义概念所具有的属性、属性的取值约束、 处理过程、概念之间的关系等。领域本体还要求明确定义出概念内部或者概念之间的公 理,以表示领域内的一般假设或者规律。领域本体的研究使得在人看来一目了然的概念 2 大连理工大学博士学位论文 和概念之间的关系都形式化地加以描述,使概念之间的各种规律、联系和假设等都被显 式地描述出来,这有利于全面地获取和分析并利用知识。 本体研究使知识共享和知识重用成为可能。本体知识可包括不同领域的知识,如医 学的、农业的、军事的等等。有不同性质的,如常识的、经验性的、规律性的知识等等。 有不同目的,如用于诊断、用于决策、用于规划等等。为了操作和使用这些不同领域、 不同性质或用于不同目的的知识,人们提出各种各样的知识表示和推理方法,开发出各 种不同的知识系统。由于采用不同的表示和推理机制,这些系统之间的知识难以相互共 享,系统之间难以进行互操作。即使在同一领域内,因为领域知识包括概念、概念的性 质,概念之间的各种关系、概念之间的一般规律等。这些概念、性质、关系错综复杂, 如果没有良好的组织形式,知识也很难被理解、共享和应用。本体研究概念所表示事物 的独立于任何表示语言而存在的本质,通过研究确立概念之间的本质联系和隶属关系, 建立领域概念的完整体系,澄清了领域知识的结构,从而能为各种不同或者相同的知识 系统之间的知识共享、互操作和重用提供可能。例如,在开发一个新的本体工程时,如 果其它站点有相同的本体,则可以直接重用这些本体,以避免重复的工作。由于所要讨 论的事物本质是一致的,且描述的形式规范化,所以可以直接应用这些己有的工作成果。 本体研究有助于知识分析。人类的知识千差万别,数量巨大,信息技术和网络技术 的发展使人类日常所接触到的知识更是飞速膨胀。人们通过知识工程、数据挖掘、知识 挖掘等研究总结了多种知识获取方法,并获取了大量的知识。如何判断这些知识是正确 的、一致的和有效的是一个必然要解决的问题。但由于知识的数量巨大、知识本身的模 糊性和二义性、表示形式的多样性等,知识分析变得非常困难。本体研究事物的本质, 建立起概念之间的结构关系,规范化地表示概念、概念的性质及概念与概念的性质之间 的各种约束和公理,根据这些约束和公理可以对知识的一致性、正确性和完备性等进行 有效的检查。其次,形式化表示的知识也有助于实现计算机的自动检测、评价。另外, 本体等价的判断和本体的转换等操作有助于从整体上对知识进行分析,以确保知识的一 致性和正确性。 目前,虽然人们在知识工程领域对本体己经进行了广泛研究,但还存在一些问题。 如c y c 要建立常识知识库,但符合常识的知识不一定是正确的知识;m i n d n e t 期望能完 全自动地获取知识,但能获取的知识种类非常有限;b k b 是不完全的专业知识,由于一 些概念没有明确的定义,所以共享性不好;随着对该领域理解的逐步深入,许多问题正 一个个呈现在人们面前。正是这些问题的难度和所具有的挑战性使人们相信,对于本体 的研究将成为今后的一个更加活跃的研究领域。 除知识工程外,本体的研究对其它应用研究也很有意义: 领域本体构造中数据源选取及构造方法的研究 语义w e b 方面。本体是w e b 信息在语义层次上共享和交换的基础,可以大大加强 w e b 的功能。因为网页上使用的名词或x m l 代码,可以由本体给出明确的语义定义。 有些本体把相同的概念用不同的词汇表示,也可以通过本体之间的映射机制说明二者之 间的等价性。这样本体就为语义w e b 提供了一套共享的术语和信息表示结构,多数据源 上的异构信息通过共享的术语和信息表示结构成为同构的信息,从而使语义上的通讯和 互操作成为可能。本体在语义w e b 中的应用还刚刚起步,但具有非常重要的地位。目前 主要的应用研究包括改进w e b 搜索的正确性和智能性、将网页上的信息联系到相关知识 和规则进行推理以解决复杂问题、实现网络信息集成、实现电子商务等。 知识管理方面。知识管理包括知识获取、知识维护和知识存取。语义w e b 技术的发 展为从面向文档的知识管理转换为面向知识块的知识管理提供了基础。目前,网上智能 “p u s h ”服务、知识管理与事务处理的集成等己经成为迫切需要解决的问题,而本体是 实现这些功能的关键。本体能够对非结构化的信息进行注释以表明它们的语义,能够用 于信息集成,还能够辅助生成面向用户的视图以使知识访问更简单。 企业建模方面。“企业建模 是指在计算机上实现一个企业模拟环境,这个企业模 拟环境也称为“虚拟企业 。企业模拟是本体的重要应用领域之一。本体在企业模拟中 的作用主要体现在两个方面:一方面,企业本体是企业模拟所依据的模型;另一方面, 企业本体又是不同企业过程集成的桥梁。著名的企业本体包括英国爱丁堡大学的企业项 目和加盒大多伦多大学的虚拟企业项目等。 总之,本体技术己经发展成为知识表示、知识管理、知识共享、知识复用的主流技 术之一,正成为自然语言处理、信息检索、数据库和知识库的管理、异构数据集成、数 字图书馆、语义等研究领域共同关心的一个核心问题 2 9 - 3 0 1 。 1 2 本体研究概况 从西方哲学史来看,本体作为一门学问起源于对万物本原的追问。本体这个词早在 1 7 世纪就已诞生,其派生于希腊语的“o n t o ( “存在”) 和“l o g i a ( “箴言录 ) , 是一个哲学术语。从哲学意义上看,本体关注的是“存在”,即世界在本质上有什么样 的东西存在,或者世界存在哪些类别的实体。所以哲学上的本体是对世界任何领域内的 真实存在所做出的客观描述,而且这种描述不一定完全建立在已有的知识基础上,还包 括“求真 的过程。实际上,人类对“存在”问题的探讨由来已久,也和哲学的起源分 不开。哲学家亚里士多德早在公元前4 世纪所确立的重要哲学分支“m e t a p h y s i c s 就是 “关于存在的科学 ,在很长时间里,本体也一直被看做是m e t a p h y s i c s 的同义词。后 4 大连理工大学博士学位论文 来,伴随近代科技革命的出现,m e t a p h y s i c s 逐渐包纳更多的研究领域( 如意识、事实、 价值等) ,而本体继续承担哲学中对世界“存在”的研究,成为现代哲学体系的根基。 正如本体的诞生与哲学早期的发展密切相关一样,在过去的数十年中,本体在计算 机科学领域的发展也与人工智能和信息技术的起步和发展密不可分。 在人工智能领域,经历了2 0 世纪6 0 年代通用问题求解方法研究的困境,学者们开 始研究通过专门领域的知识表达来支持自动推理。以d e n d r a l 3 l 】为代表的知识库系统 的成功确立了知识在解决人工智能问题方面的重要地位,作为研究知识库和知识系统构 建技术的学科“知识工程 ( k n o w l e d g ee n g i n e e r i n g ) 【3 2 】随之发展起来。为了减少构建知 识库的代价,避免每次都从头开始,越来越有必要考虑知识的复用问题。通过复用,系 统开发者可以在已有知识基础上更加专注于特定领域的知识构建,并且新系统可以利用 所复用的知识与现存的其它系统进行交互。这样,描述性的知识、问题解决方法以及推 理服务都可在系统间实现共享,从而可以方便地构建出更大、更好的知识库。因此,必 须考虑在一个领域中哪些知识是可以复用的或共享的,以及怎样获取和描述一个领域中 的一般性知识等问题。 同时,数据库管理系统( d b m s ) 研究领域也逐步发现,虽然数据库技术已经成熟, 但概念模型的一些隐蔽的、更为重要的问题依然存在。早期数据库的概念模型以专门化 和不一致为明显特征,导致了后来数据库集成方面的许多实际问题【3 3 1 。 另外,伴随着面向对象技术的兴起,软件工程研究领域也开始认识领域建模( d o m a i n m o d e l i n g ) 的重要性,因为在软件变得日益庞大和复杂的时候,必须面对程序维护和重用 性的问题【3 4 】也就是要对应用程序中的过程或者功能进行陈述性表达,以便让其它应用程 序重用。但是,这个问题也因缺乏具体、统一的领域建模形式化基础而没有得到很好的 解决【3 5 】。 以上3 个方面的发展都面对了同一个类似问题,即需要对某个领域进行通用概念上 的描述。因此,必须回答这样的问题:对于某个领域,本质上有些什么样的对象、过程、 属性和关系? 什么是一项事务、一个人以及一个组织? 它们之间的相互依赖关系如何? 这正是本体所研究的内容。 在一段时间里,本体在上述领域的发展是相互独立的。在信息系统领域,几乎从头 发展了本体的思想。首先是m c c a r t h y 受学者q u i n e 的启发,认识到哲学本体与人工智 能的逻辑理论构建活动之间的重叠,并于1 9 8 0 年提出:以逻辑概念为基础的智能系统必 须“列出所有存在的事物,并构建一个本体描述我们的世界 【3 6 】。当时大多数a i 逻辑 学者都认为对某个世界所获取的信息和人们的“常识 是一致的【3 7 】。因此,s o w a 也提出 领域本体构造中数据源选取及构造方法的研究 要构建“一个可能世界的本体”:尽可能地包含世界的所有事物、它们之间的联系以及 相互影响的方式p 引。 然而,当时的绝大多数人工智能学者并没有考虑到与之相重合的哲学概念中的本体 论,而直接引入“本体论 这个术语来表示他们在知识工程中对领域世界的“存在”研 究。这造成了人工智能和信息系统领域中对“本体 术语含义的误解,使其更倾向于逻 辑理论,而与世界的“存在离得更远,这些学者认为,将,本体”看做是用来定义信 息系统中的对象、属性、关系、事件和过程的一种“逻辑理论”,似乎更适合人工智能 学科。然而,应该看到,信息系统正是因为缺乏对系统外真实世界的理解和描述才造成 了许多问题:如果本体不涉及信息系统外面的常识世界,而只是系统内采用的一种逻辑 理论,怎能使那些具有不同的概念模型但在实际语义上却相同的信息系统协同工作? 因此在信息科学领域,迫切需要对本体的定义做进一步的辨析和规范,既要借鉴哲 学本体论思想的内涵,又要考虑本体论在人工智能和信息系统领域应用的具体特点。这 项重要工作主要以t o mc r r u b e r 和n i c o l ag u a r i n o 分别在1 9 9 3 年和1 9 9 8 年的研究为代 表,他们都以传统人工智能教材l o g i c a lf o u n d a t i o n so fa r t i f i c i a li n t e l l i g e n c e 3 9 】中所提的 c o n c e p t u a l i z a t i o n 这一重要定义为基础。人工智能领域将本体的概念引入【4 0 , 4 1 】,用于知识 表示和知识组织,其概念的内涵也因此发生了改变 4 2 1 。b o r s tp i m 博士等【4 3 】在g r u b e r 4 4 提出本体的定义的基础上,对其定义作了少许修正。两个定义合并以后得出:本体是一 套得到大多数人认同的、关于概念体系明确的、形式化的规范说明。本体是一个关于某 些主题的、层次清晰的规范说明【4 5 j 。它是一个已经得到公认的形式化的知识表示体系 4 6 】, 它包含词表( 或名称表、术语表) ,词表中的术语全是与某一专业领域相关的,词表中 的逻辑声明全部是用来描述那些术语的含义和术语间关系的,即它们是怎样和其它术语 相关联的。因此本体提供了一个用来表达和交流某些主题知识的词表和一个关系集,关 系集是词表中术语间关系的集合【4 7 4 引。 现阶段具有代表性的本体研究如下:w 3 c 4 9 本体研究立足于本体在语义w e b 中的应 用,推出了x m l ,r d f 和o w l 等标准的规范。德国卡尔斯鲁厄大学【5 0 】和以他们为首的 应用情报学和规范描述方法研究所1 5 l 】( a i f b ) 对本体的基础理论和本体的数学表达进行 了深层次的研究,目前重点研究构造本体的知识门户和语义门户 5 2 】。美国斯坦福大学的 知识系统实验室( k s l ) p 3 1 ,无论是在本体的建模工具领域,还是在本体应用层面的研究方 面,都站在了知识工程的领域的前沿 5 4 , 5 5 】。除此之外,西班牙马德里大学的 g o m e z p e r e z 5 6 】,美国加州伯克利分校m a r t ih e a r t 57 1 ,意大利罗马大学的m i c h e l e m i s s i k o f f 5 8 在本体理论基础研究,本体的构造、本体评估等方面都做了大量的工作。 6 大连理工大学博士学位论文 从本体研究内容上分析可知:手工构造本体方法研究较多 5 9 - 6 5 】,本体的应用研究较 多【6 6 7 。( 半) 自动构造本体研究较少,而对本体评价研究还没有一个完整

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论