




已阅读5页,还剩61页未读, 继续免费阅读
(管理科学与工程专业论文)基于本体的企业文本检索模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于本体的企业文本检索模型研究 摘要 企业中的文本随着企业的不断发展而呈现爆炸式的增长,如何在海量 数据中检索需要的文本是企业知识管理中的一个重要的研究课题;而本体 提供对某个领域知识的共同理解,提供基于语义的知识获取和共享,因此 可以借助于本体,通过定义和共享共同的领域知识来促进用户和信息服务 器对领域知识的共同理解,提高知识检索的层次,以提高文本检索的查准 率和查全率。 本文首先研究分析了本体的概念、分类、功能、描述语言、理论和应 用研究现状,并把目前的文本信息检索技术分成了四个流派,综合分析比 较了目前文本信息检索技术的原理、优缺点;然后具体研究分析了目i j i 基 于本体的信息检索方法研究的现状,针对其不足之处提出了一个基于本体 的企业文本检索模型。在这个模型中,本文提出了以文本自然段作为检索 对象,通过信息抽取以本体描述符来表示文本自然段和检索要求,重点研 究了领域本体建设方法、本体描述符相似度的计算、文档模糊聚类分析, 并在其后给出了相似度和模糊聚类分析的计算实例。 关键词:文本检索,本体描述符,领域本体,语义相似度,文档聚类 t h er e s e a r c ho fe n t e r p r i s ed o c u m e n tr e t r i e v a lm o d e l b a s e do no n t o l o g y a b s t r a c t t h ed o c u m e n ti n e n t e r p r i s e h a si n c r e a s e de x p l o s i v e l yw i t ht h e d e v e l o p m e n to ft h ee n t e r p r i s e ,h o wt or e t r i e v a lt h en e e d e dd o c u m e n tf r o mt h e v a s td a t ah a sb e e na ni m p o r t a n tp r o b l e mi nt h ee n t e r p r i s ek n o w l e d g e m a n a g e m e n t ;o n t o l o g yi st h ec o m m o nu n d e r s t a n d i n gt o ac e r t a i nd o m a i n k n o w l e d g e ,a n do f f e r st h ek n o w l e d g ea c q u i s i t i o na n ds h a r i n gb a s e do n s e m a n t i cl e v e l s ow ec a nr e c u rt oo n t o l o g y ,a n di tc a np r o m o t et h ec o m m o n u n d e r s t a n d i n go fu s e ra n di n f o r m a t i o ns e r v e rt oac e r t a i nd o m a i nk n o w l e d g e , p r o m o t et h el e v e lo fk n o w l e d g er e t r i e v a l ,a n dp r o m o t et h er e c a l lr a t i oa n d p e r t i n e n c yr a t i o no ft h ed o c u m e n tr e t r i e v a lw i t hd e f i n i n ga n ds h a r i n gt h e c o m m o nd o m a i nk n o w l e d g e w ef i r s t l yg i v es o m er e s e a r c ha n da n a l y s i st ot h ec o n c e p t ,c a t e g o r i z a t i o n , f u n c t i o n ,d e s c r i p t i o nl a n g u a g e ,t h e o r ya n dt h ea p p l i c a t i o nr e s e a r c hs t a t u so f o n t o l o g y ,t h e na n a l y z ea n dc o m p a r e t h et h e o r yo fd o c u m e n tr e t r i e v a l t e c h n o l o g yb a s e do nc l a s s i f y i n gi ti n t of o u rt y p e s t h e nt h es p e c i f i cs i t u a t i o n o ft h er e s e a r c ha b o u tt h ei n f o r m a t i o nr e t r i e v a lt e c h n o l o g yb a s e do nt h e o n t o l o g yi sg i v e ni nt h ef o l l o w i n gp a p e ra n dw ep r o v i d eae n t e r p r i s e d o c u m e n tr e t r i e v a lm o d e lb a s e do no n t o l o g ya i m i n ga ti t ss h o r t c o m i n g s i ti s p u tf o r w a r di nt h i sm o d e lt h a tw ec a nv i e wt h ep a r a g r a p h so fd o c u m e n t sa s t h eu n i tf o rr e t r i e v a l ,a n de x t r a c ti n f o r m a t i o nf r o me n t e r p r i s ed o c u m e n t st o e s t a b l i s ho n t o l o g i c a ld e s c r i p t o r sa n de x p r e s st h ep a r a g r a p h sa n dr e t r i e v a l q u e s ti no n t o l o g yd e s c r i p t o r sf o r m t h e nw er e s e a r c ht h eb u i l dm e t h o do f d o m a i no n t o l o g i e s ,t h ec a l c u l a t em e t h o do fo n t o l o g yd e s c r i p t o r ss i m i l a r i t y a n dt h ef u z z yc l u s t e r i n ga n a l y s i so fd o c u m e n t s ,a n da ne x a m p l ei sa l s og i v e n a f t e ri t k e yw o r d s :d o c u m e n tr e t r i e v a l ,o n t o l o g i c a ld e s c r i p t o r s ,d o m a i no n t o l o g y , s e m a n t i cs i m i l a r i t y ,d o c u m e n tc l u s t e r i n g 1 v 合肥工业大学 本论文经答辩委员会全体委员审查,确认符合合肥工业 大学硕士学位论文质量要求。 答辩委员会签名:( 工作单位、职称) 主席: 委员: 磊暂e 易舌帅雄文 名拟伽九嚣、净梭 导师: 勃 插图清单 图1 1 论文的组织结构6 图2 1 语义w e b 体系结构1 1 图2 2 本体的语言栈1 8 图2 - 3 基于本体的企业文本信息检索框架3 3 图2 - 4 信息检索的步骤3 5 图3 - 1 基于本体的文本信息抽取模型3 6 图4 1 本体片断5 0 v i i i 表格清单 表2 1 本体代表性的定义7 表2 2 概念元特性的说明10 表2 3 语义w e b 各层描述1 2 表2 - 4 语义网络栈1 7 表2 - 5o w l 子语言1 8 表2 - 6 i r 各技术流派特点比较2 8 表3 1 准主题词表3 8 i x 独创性声明 本人声明所呈交的学位论文是本人在导师指导r 进行的研究t 作及取得的研究 成果。据我所知,除了文中特别加以标志和敛谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果,也不包含为获得金卫些厶堂 或其他教育机构 的学位或证书而使用过的材料。与我一同j _ = 作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明升表示谢意。 学何论文作者签字:弘串宫签字日期:丽年乡月衫日 学位论文版权使用授权书 本学位论文作者完全了解金胆些厶堂 有关保留、使用学位论文的规定, 有权保留并向国家有关部r j 或机构送交论文的复印件和磁盘,允许论文被查阅或借 阅。本人授权金罡至、业盘堂 可以将学位论文的全部或部分论文内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密f f 亓适用本授权书) 学伉论文者签名 弘、辛7 一亘 导师躲埸踢 签字日期:细歹年月g 日 签字日期:疥年,月占日 学位论文作者毕业后去向 t 作单位 通讯地址 电话 邮编 致谢 本论文是在导师梁昌勇教授的悉心指导下完成的,不论从选题还是从 论文的撰写、定稿都得到了梁昌勇教授的谆谆教诲,使我在学业上有了长 足的进步,尤其是导师渊博的学识、严谨的学风、求实的态度都为学生树 立了典范。值此论文完成之际,谨向导师致以崇高的敬意和衷心的感谢! 感谢管理学院老师蒋翠清、余本功、俞家文、丁勇、陆文星、何宏 贵、左春荣、杨昌辉等老师对我的关心和指导。 在读研的三年里,我得到了陈增明、黄永青、杨国兰、童建军、张俊 岭、万会奇等同学的关心和帮助,在此对他们表示感谢。 感谢我的父母和家人,正是他1 1 多年来默默的支持和无私的关怀,使 我完成了学业。 感谢对论文进行评审和提出宝贵意见的各位老师。 最后,感谢所有关心和帮助过我的人们。 v 作者:张申恒 2 0 0 5 年6 月 第一章绪论 信息检索( i n f o r m a t i o nr e t r i e v a l ) 指的是从一个文档集合中查找出包 含有与用户的信息需求相关的信息内容的文档或者文本。而企业文档信息 检索对于企业知识管理无疑是非常重要的。19 9 9 年j o n e s 在文档方法论 ( t h ed o c u m e n tm e t h o d o l o g y ) 中提出了关于文档的五条公理: 冷公理一、文档记录了企业知识; 夺公理二、文档定义了企业工作流程 夺公理三、文档为管理人员提供事实; 夺公理四、文档构建计算系统; 令公理五、文档引导企业变化; 这充分说明了文档在企业运作中的重要性。j o n e s 文档方法论认为, 企业中的文档中包含了整个企业大部分的知识和关于企业经营情况的事 实,因而它们对于企业来说是非常宝贵的资源,这些资源必须要能及时准 确地提供给需要这些知识和事实的人。j o n e s 的文档方法论还认为,不仅 企业中充斥这大量的文档,这些文档还在处于不断的运动变化中。一方面 体现在文档总是处于动态的工作流程之中,学要随着工作流程的进展在不 同的部门之间发送,另一方面是文档本身处于不断的创建、发布、评审、 修订的过程中,文档本身的内容也在不断变化。企业信息系统历经了电子 数据处理系统,管理信息系统,决策支持系统,知识管理系统几个发展阶 段,其中一条根本原则就是信息系统必须为管理服务:建立企业信息系统 的最终目的是使用数据和信息进行管理和决策,所以从大量的企业文本中 检索出需要的信息必定是企业信息系统无法回避的问题。 随着企业信息系统从主机终端模式、文件服务器模式、c l i e n t s e r v e r 模式发展到b r o w s e r s e r v e r 模式和混和模式,w e b 信息检索( w e bi r ) 和 经典信息( 经典i r ) 检索的区别越来越小,企业中的信息也存在着海量规 模、异构性、动态性、半结构化、检索对象质量良莠不齐等问题,当然 w e b 中还存在着大量的“s t r e a m i n g ”信息,即音频视频动画类信息,信息 检索的基本原理也适用于多媒体等的检索,但本文只关注文本信息的检 索。 1 1 企业文本信息检索系统的现状和发展趋势 当前的信息检索系统可分为:搜索引擎、目录、元搜索引擎和信息检 索a g e n t 。它们有各自的优缺点:搜索引擎的优点是信息量大、更新及时、 不需要人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结 果中进行筛选;目录式信息检索系统因为加入了人的智能,所以信息准确、 导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及 时:元搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充 分使用所使用搜索引擎的功能,用户需要做更多的筛选;信息检索a g e n t 能够学习用户的需求,并利用搜索引擎等系统提供的现有服务来检索用户 所需信息,具有可适应性、主动性和协作性、移动性的特点,但建立用户 兴趣模型是一个难点。 企业信息系统从相对独立和集中发展到分布和开放,检索对象从相对 集中、稳定由独立数据库集中管理的信息内容扩展到动态、分布广泛、管 理松散的w e b 内容,所以集成化、智能化、个性化、语义化是当前企业文 本信息检索的发展方向,下面分别说明: 在企业信息系统分布化和网络化的趋势下,文本检索系统的开放性和 集成性要求越来越高,需要能够检索和整合不同来源和结构的信息;智能 化检索系统提供给用户友好的检索交互界面,提供基于自然语言或实例的 查询,针对用户查询请求自动向用户提供相关文档:个性化系统依据用户 浏览和检索的习惯信息,通过相关反馈学习算法等生成反映用户兴趣的用 户模型,主动向用户提供相关的信息;传统的基于关键词匹配的检索方法 所寻找的信息可能仅仅是语法信息,但是往往人们想要的是这个信息的语 义或语用信息,这就造成了其查询结果往往产生了大量毫不相关的信息, 同时又可能丢失重要的信息,降低了检索系统的查全率和查准率,而语义 检索利用分词词典、同义词典、上下位词典、相关同级词典改善检索效果, 可以实现语义蕴涵的扩展、( 比如用户检索“动物”,与“猫”、“狗”相关 的信息也能检索出来) ,语义外延扩展( 比如检索“操作系统”,也能检索 出与“计算机软件”和“应用软件”相关的信息) 、语义相关扩展( 如检 索“微软”,也能查询出“微软视窗”和“w i n d o w s n t 的信息”) ,进一步 还可在知识层面或者说概念层面上辅助检索,形成一个概念网络,给予用 户知识提示,最终帮助用户获得最佳的检索效果,另外,语义检索还包括 区别歧义信息,如区别“书本”和“这书本来是放在课桌上的”中的“书 本”。 1 2 当前企业文本信息检索中存在的问题 企业文本检索随着信息技术的发展已经发展到一定阶段,但还存在着 一些问题,主要存在信息源的问题、检索工具和用户表达的问题。 ( 1 ) 信息资源的问题 企业中存在各种类型、各种样式的文档,如非结构化文档,具有 格式化文本结构的文档,高结构化文档。这样就导致信息资源收集不完整、 不系统、不科学,导致信息检索必须多次进行和信息资源加工处理不规范、 2 不标准,使信息检索的查全率、查准率下降。 信息资源分散、无序,其更换和消亡无法预测。 欺骗问题。有些w e b 页面为了达到被检索到或排在检索结果之前的 目的,使用了非常长的页面标题,有时竟然长达数千词,而其该标题只是 将与页面主题相关的热门词语的大量重复。企业中的文本信息检索虽然不 会故意为了达到被检索的目的而欺骗,但标题和内容不符的事却时有发 生。 信息的语言障碍问题,如汉语文本和英语文本共存,影响了用户 对信息资源的检索。 ( 2 ) 检索工具的问题 每种检索工具的覆盖率有限。 基于关键词匹配的检索工具返回信息过量,使用户无法筛选,找 到自己需要的信息。 基于关键词匹配的非个性化检索方式适应用户兴趣变化的能力较 差,对任何用户都是一种模式,很容易让用户感到迷茫,使得用户无法准 确地表述自己的兴趣。 用户与检索系统的交互方式比较单调,缺少针对不同需求的用户, 提供不同的输入方式。 ( 3 ) 用户表达问题 很多情况下,用户很难简单的用关键词或关键词的组合来忠实的 表达他真正所需要检索的内容。 人类的自然语言随着时间、地域和领域的改变,导致同一概念可 以用不同的语言表现形式来表达,因此对同一概念的检索,不同的用户可 能使用不同的关键词来查询。所以就给基于关键词匹配的信息检索带来困 惑。 “词汇”孤岛问题。概念在人的大脑中并不是孤立存在的,它总 是与其他概念之间存在着各种联系。在信息检索中,用户在检索一个词时 总是还想得到与此概念相关的其他信息,现在的检索工具往往还满足不了 用户的这种愿望。 1 3 本体及基于本体的信息检索 传统的信息检索方法中产生误检、漏检的一个重要原因是用户的需求 表达与信息系统的表示方式不一致,实质上是对领域知识理解的不一致, 要解决这个同题必须采取某种人和机器都能理解的中间语言来促进人机 交流,消除人和机器对同一信息的认同误区。 本体是共享概念模型的明确的形式化规范说明| 2 】,可以用来捕获相关 的领域知识,形成对该领域知识的共同理解,确定该领域内共同认可的词 汇,并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明 确定义。从知识共享的角度来说,它是通用意义上的概念定义集,是关于 概念和关系的词汇表。这种词汇表是在各种事务代理人之间交换意见时所 用到的共同语言。因而可以借助于本体,通过定义和共享共同的领域知识 来建立人机交流的平台,以促进用户和信息服务器对领域知识的共同理 解,进而提高知识检索的层次。因此将本体引入w e b 信息检索的主要目 的就是要通过本体技术提供一种范围广泛的知识共享和重用的途径,以提 高用户检索信息的查准率和查全率。 当前基于本体的信息检索研究方兴未艾,但是还是存在着一些问题: 夺信息检索时经常会发现所需要的信息散落在各个文本的各个自然 段里;而且某个文本的主题虽然和检索要求相去甚远,但是其中的某些段 落却可能包含着所需要的信息。当前基于本体的企业文本信息检索的理论 研究和应用并没有考虑到企业信息系统中文本检索对象的这种特点。 夺领域本体的建设处于探索性研究阶段,在这个过程中存在着很多 问题,对不同问题的认识和解决会得出不同的方法论,现有的方法论没有 很好的考虑本体的共享、重用和进化的问题。 呤没有涉及到o n t o l o g y 中术语的相似度的计算,这是检索匹配的一 种很有有效的推理方式。 夺文档的模糊聚类可以加快搜索速度,但是目前的研究没有涉及到 文档的模糊聚类分析。 1 4 论文研究的意义和研究内容 1 4 1 论文研究意义 针对上述基于本体的信息检索存在的不足之处,本文拟提出一个基于 本体的企业文本信息检索模型,具体来说有以下的意义: ( 1 ) 如何建立企业所涉及的本体是基于企业文本信息检索的基本问 题,本文在综合研究了目前的几种领域本体建设的方法论的基础上,分析 了其缺点和不足,提出了一种领域本体建设的方法,更注重前期的需求分 析、本体的共享、规范、重用和进化。 ( 2 ) 本文把文本自然段作为信息检索的单位,充分考虑了企业信息系 统文档的特点,更切合信息检索的实际。 ( 3 ) 本文把概念语义相似度和文本的本体描述符联系起来,量化了信 息检索的推理,提高了检索的查全率和查准率。 ( 4 ) 基于本体的文档模糊聚类还可以加快文本检索的速度,搜索过程 就可以处理最相似的那些类,即那些与输入查询相似度大于某个闽值的 类。 ( 5 ) 随着语义w e b 成为下一代万维网的发展方向,语义网研究的主要 目的,就是扩展当前的w w w ,使得网络中尽可能多的信息都是具有语义 的,是计算机能够理解和处理的,便于人和计算机之间的交互与合作。它 通过扩展现有互联网,在信息中加入表示其含义的内容,使计算机可以自 动与人的协同工作。本体层将为语义w e b 提供语义级的共享,是语义w e b 实现的关键所在,o n t o l o g y 是语义w e b 核心部分,因此把本体引入到信 息检索当中能更好的为将来的w e b 上信息检索提供更好的方式。 1 4 2 论文研究内容和框架 本文研究内容和框架如下: 本文在综合研究分析本体和文本信息检索技术的基础上,提出了以文 档聚类加速搜索、计算本体描述符相似度的基于本体的企业文本信息检索 模型,这个模型考虑到企业信息系统文档的特点,提出以文本自然段为检 索对象,并且在综合研究领域本体建设方法论的基础上,提出了一个更注 重本体共享、规范、重用和进化的领域本体建设方法论。 第一章绪论:分析当前企业文本信息检索的现状、发展趋势和存在的 问题,针对基于本体的信息检索的不足之处,提出本文拟要解决的问题和 研究意义,说明本文的研究内容和框架。 第二章本体及其在信息检索中的应用:在综合研究本体和信息检索技 术的基础上,分析当前基于本体的信息检索的优缺点,提出了一个以文本 自然段为检索对象、用本体描述符来表示检索要求和文本自然段、基于本 体的企业文本信息检索模型框架。 第三章基于本体的企业文本信息抽取模型:分别从分词、领域本体建 设方法论、映射本体和文本信息源的形式化四个方面来阐述了基于本体的 企业文本信息抽取模型。 第四章基于本体的企业文本检索模型的查询管理:分析了基于本体的 信息检索中的推理匹配方式,提出基于本体的文档模糊聚类方法和本体描 述苻的计算模型和方法。 第五章总结和展望。 第一章绪论 弋7 第二章本体及其在信息检索中的应用 v 第三章基于本体的企业文本信息抽取模型 之多 第四章基 :木体的企业文本信息检索模型 的查询管理 、7 第五章总结和展望 图1 - 1 论文的组织结构 6 第二章本体及其在信息检索中的应用 如前所述,本体能为信息检索提供更好的方式,因此本章首先介绍了 本体的基本概念、当前的研究现状和本体的作用功能,说明了当前常用本 体形式化表示方法;然后分析了目前的信息检索技术并且指出了各种信息 检索技术的优缺点,介绍了本体在信息检索的应用研究现状;最后提出了 基于本体的信息检索框架和检索步骤。 2 1 本体研究综述 2 1 1 本体的概念及其分类 本体( o n t o l o g y ) 的概念最初起源于哲学领域,后来人们将本体的概 念和方法应用于计算机领域,用于知识表示、知识共享和知识重用。直观 地讲,本体是一个实体,是对某领域应用本体论的方法分析、建模的结果, 即把现实世界中的某个领域抽象为一组概念以及概念之间的关系。 在人工智能界,最早给出o n t o l o g y 定义的是n e c h e s 等人,他们认为: “本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些 术语和关系来定义词汇表外延的规则。”1 3 然而最初人们对o n t o l o g y 的理 解并不完善,这些定义也出在不断的发展变化中,比较有代表性的定义列 表如下: 范畴提出时间提出人定义 客观存在的一个系统的解释和说明,客观现实 哲学 的一个抽象本质 给出构成相关领域词汇的基本术语和关系,以 及利用这些术语和关系构成的规定这些词汇外延的 1 9 9 1 n e c h e sf 3 】等 规则的定义 1 9 9 3 g r u b e r l 4 概念模型的明确的j i ! l ! 范说明 计算机19 9 7 b o r s t 共享概念模型的形式化规范说明 19 9 8 s t u d e rf 2 1 共享概念模型的明确的形式化规范说明 本休是对某个领域中的概念的形式化的明确的 2 0 01 n o y f n i 5 】 表示,每个概念的特性描述了概念的各个方面及其 约束的特征和属性。 表2 1 本体代表性的定义 目前较为公认的说法是s t u d e r 的定义:本体是共享概念模型的明确 的形式化规范说明。而且s t u d e r 在总结g r u b e r ,b o r s t 定义基础上指出了本 体的四层含义: 概念模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享 ( s h a r e ) 。“概念模型”指通过抽象出客观世界中一些现象的相关概念而得 到的模型;“明确”指所使用的概念及使用这些概念的约束都有明确的定 义;“形式化”指本体是计算机可读的:“共享”指o n t o l o g y 中体现的是共 同认可的知识,即本体针对的是团体而非个体的共识。o n t o l o g y 的目标是 捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域内共 同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词 汇之间相互关系的明确定义。目前,普遍认为一个本体可由概念类 ( c l a s s e s ) 、关系( r e l a t i o n s ) 、函数( f u n c t i o n s ) 、公理( a x i o m s ) 和实例 ( i n s t a n c e s ) 5 种元素组成i ”。另一方面,从这些定义中可以看出,本体 中最重要的是术语和术语中的关系,以及对于组合这些术语和关系的规 则。这就为解决传统信息检索的语义问题和通用问题提出了解决方法:在 本体的支持下,机器也可以“理解”语义,而不是单纯的进行关键词匹配; 本体规范化了本领域内词语的语义,从而避免了出现由一词多义或多个词 语表达一个语义带来的困难。 目前被广泛使用的o n t o l o g y 有如下8 个:w o r d n e t 6 1 、f r a m e n e t l 7 t 、 g u m i 引、s e n s u s i 、m i k r o k m o s 10 1 、c y c l l ”、t o v e l l2 1 ( 加拿大多伦多 大学的研究项目) 、e n t e r p r i s ep r o j e c t f l3 1 ( 爱丁堡大学人工智能应用研究 所) 。w o r d n e t 是基于心理语言规则的英文词典,它以s y n s e t s 为单位组织 信息,所谓s y n s e t s 是在特定的上下文环境中可互换的同义词的集合: f r a m e n e t 也是英文词典,采用称为f r a m es e m a n t i c s 的描述框架,提供很强 的语义分析能力,目前发展为f r a m e n e t i i :g u m 、s e n s u s 年f i m i k r o m o s 都是面向自然语言处理的,g u m 支持多语种处理,包含基本的概念及独立 于各种具体语言的概念组织方式:s e n s u s 为机器翻译提供概念结构,包 括7 ) 7 多个概念:m i k r o m o s 也支持多语种处理,采用一种语言中立的中间 语言t m r 来表示知识;c y c 通过本体开发为常识推理提供基础,一阶谓词 逻辑的扩展语言c y c l 表达;t o v e 本体包括活动、组织、资源、产品、 成本和质量等部分,它们组成了集成的企业模型。并具有以下特征:1 ) 为企业的应用软件提供共享的术语:2 ) 用一阶谓词逻辑为每个术语定义尽 可能精确的含义;3 ) 用一组p r o l o g 公理来实现本体语义约束;4 ) 定义一套 符号,对术语和概念进行图形化的描述。 但是目前本体论的研究尚存在不少问题,突出的几个是:( 1 ) 已开发 出来的本体( 库) 内容不够深入,形式化程度不够;( 2 ) 大多数本体( 库) 由手工开发,缺乏有效的本体管理工具和评价工具;( 3 ) 目前开发的本体 应用十分有限。 为了对o n t o l o g y 进行有效的分类,g u a r i n o 在文献l 中提出以详细程 度和领域依赖度两个维度作为对o n t o l o g y 戈0 分的基础。详细程度是相对 的、较模糊的一个概念,指描述或刻画建模对象的程度。详细程度高的称 作参考( r e f e r e n c e ) o n t o l o g i e s ,详细程度低的称为共享( s h a r e ) o n t o l o g i e s 。 依照领域依赖程度,可以细分为顶级( t o p 1 e v e l ) 、领域( d o m a i n ) 、任 务( t a s k ) 和应用( a p p l i c a t i o n ) o n t o l o g i e s 等4 类。其中: 夺顶极o n t o l o g i e s 描述的是最普通的概念和概念之间的关系,如空间、时 间、事件、行为等,与具体的应用无关,其它种类的o n t o l o g i e s 都是该 类o n t o l o g i e s 的特例。 夺领域o n t o l o g i e s 描述的是特定领域( 医药、汽车等) 中的概念和概念之 间的关系。 夺任务o n t o l o g i e s 描述的是特定任务或行为中的概念和概念之间的关系。 夺应用o n t o l o g i e s 描述的是依赖于特定领域和任务的概念和概念之间的 关系。 1 9 9 9 年,p e r e z 和b e n j a m i n s 在分析和研究了各种o n t o l o g i e s 分类法的 基础上,归纳出1 0 种o n t o l o g i e s 【l5 j :知识表示o n t o l o g i e s 、普通o n t o l o g i e s 、 顶级o n t o l o g i e s 、元( 核心) o n t o l o g i e s 、领域o n t o l o g i e s 、语言o n t o l o g i e s 、 任务o n t o l o g i e s 、领域一任务o n t o l o g i e s 、方法o n t o l o g i e s 和应用o n t o l o g i e s 。 这种分类法是对g u a r i n o 提出的分类方法的扩充和细化,但是这1 0 种 o n t o l o g y 之间有交叉,层次不够清晰。 2 1 2 本体的理论和应用研究现状 目前,知识工程领域对本体的研究包括3 个层次:( 1 ) 本体论工程。 研究和开发本体的内容,一是研究和创建特定领域的本体库;二是研究和 建立通用知识或常识的本体库;( 2 ) 本体的表示转换和集成。研究用于表 示各种本体的知识表示系统,提供形式化方法和工具,使所建立的本体能 方便地被共享和重用,提供不同本体之间互操作的手段:( 3 )本体的应 用。主要研究以特定领域本体或通用知识本体为基础的应用。 o n t o l o g y 的研究和应用主要包括以下3 方面: ( 1 ) o n t o l o g y 的理论研究。 o n t o l o g y 的理论研究包括概念和概念分类、o n t o l o g y 上的代数。最有 代表性的是g u a r i n o 等人对概念的分类所做的深入和细致的研究,他们从 一般的意义上分析了什么是概念、概念的特性、概念之间的关系以及概念 的分类,提出了一套用于指导概念分类的可行理论。基于这个理论,他又 提出了o n t o l o g y 驱动的建模方法,在理论上为建模提供了一个通用的模 式【4 】1 1 叭。 g u a r i n o 认为概念之间的差别不仅体现在概念的定义上,同时也体现 在概念的某些特性上。从这些特性出发,归纳出概念的元特性( 最基本的 特性) ,从而用公式给出元特性的严格的形式定义。在此基础上,他们又 讨论了元特性之间的关系和约束,最终把研究结果作为概念分类的基本理 论工具并提出一套完成的概念分类体系结构。 g u a r i n o 的理论可以归纳如下:概念分类理论的基础是概念的元特性。 以概念的元特性为出发点,按照一定的规则,把具有相同元特性组合的概 念归为一类,进而给出一般意义上的概念分类体系。概念的基本元特性包 括:持久特性、非持久特性、反持久特性、半持久特性、载体标识特性、 支持标识特性、外部依赖特性等,表2 2 是对各种特性的说明: 名称描述举例 持久特性严格定义为:p e r s o n 具有持久性,而 s t u d e n t 不具有持久性。 v x 巾( x ) _ o c d ( x ) 。o 代 表某个概念,中f x l 代表x 是中的一个实例,表示 其后的断言永远为真。 非持久特性对某个概念而言,存在某s t u d e n t 具有非持久性。 些实例不会永远属于该概 念。 反持久特性对概念的任何一个实例,y o u t h 具有反持久性。因为 这个实例不会永远属于该每个青年人都不可能永远 概念。 年轻。 半持久特性 1 f 持久性和反持久性的差 集。 载体标识特性如s t u d e n t 具有载体标识特 性,因为学生之间的区别 不是靠学生,而是作为人 来区分的。 支持标识特性每个实例相互之间是可以p e r s o n 具有支持标识特性, 区分的。人和人之间可由标识( 人 的指纹) 来区分。 外部依赖特性 一个概念对另外一个概念p a r e n t 夕 , 在依赖丁c h i l d , 的某种依赖关系。概念a某人是父母蕴涵他( 她) 对概念b 的外在依赖关系有小孩,而他的小孩当然 表现为概念a 中的任何一不是他的一部分。 个实例a 必蕴涵属于概念b 的实例b ,而b 不是a 的一部 分。 表2 2 概念元特性的说明 g u a r i n o 等人提出的概念分类体系,不仅从理论上澄清了概念分类上 1 0 存在的模糊和混淆的现象,同时为实际应用中o n t o l o g y 概念模型的建立提 供了良好的分析、设计和评估的手段。 ( 2 ) o n t o l o g y 在信息系统中的应用 在本体论的应用方面,目前主要集中在:本体与自然语言的研究;信 息检索与信息集成;企业模拟;软件需求获取与需求工程。由于本体具有 良好的概念层次结构和对逻辑推理的支持,在检索中有广泛应用i i 博j 。 ( 3 ) o n t o l o g y 作为一种能在知识层提供知识共享和重用的工具在语义 w e b 中的应用。 本体论在w e b 上的应用导致了语义w e b i ”1 的诞生,其目的是解决 w e b 上信息共享时的语义问题,语义w e b 被看作是当前本体论从学术研 究走向实际应用的最重要的构想和研究计划。1 9 9 8 年,w e b 的创始人t i m b e r n e r sl e e 首次提出了“语义w e b ”( s e m a n t i cw e b ) 的概念及其技术 路线【2 ,2 0 0 1 年2 月,w 3 c 正式成立“s e m a n t i cw e ba c t i v i t y ”来指导 和推动语义w e b 的研究和发展,语义w e b 的地位得以正式确立。 语义w e b 是建立在r d f ( s ) 等标准语言的基础上,对w e b 上的数据 所进行的一种抽象表示。语义w e b 所指的“语义”是“机器可处理”语 义,而不是自然语言语义和人的推理等目前计算机所不能处理的信息。从 技术上讲,语义w e b 要提供足够而又合适的语义描述机制。然而,从整 个应用构想来看,语义w e b 要实现的是信息在知识共享和语义上的互操 作性,这需要不同系统间有一个语义上的“共同理解”才行。于是,本体 论自然地成为指导语义w e b 发展的理论基础。下面是t i mb e r n e r sl e e 为 未来w e b 发展提出的基于语义的体系结构一语义w e b 体系结构; 其中各层描述如下 围2 1 语义w e b 体系结构 层数名称描述 低 整个语义网络的基础,u n i c o d e 处 第一层 u n i c o d e 和u r i ll理资源的编码,u r i 负责标识资源。 x m l + n s + x m l 第二层用于表示数据的内容和结构。 s c h e m a 第三层r d f + r d fs c h e m a用于描述w e b 上的资源及其类型。 o n t o l o g y i ; 第四层用于描述各种资源之间的联系。 v o c a b u l a r y v 第五层 l o g i c 在下面四层的基础上进行的逻辑推 高第六层p r o o f 理操作。 第七层t r u s t 表2 3 语义w e b 各层描述 o n t o l o g y 通过对概念的严格定义和概念之间的关系来确定概念精确 含义,表示共同认可的、可共享的知识,从而解决上面的问题。因此在语 义w e b 中,o n t o l o g y 具有非常重要的地位。是解决语义层次上w e b 信息 共享和交换的基础。 2 1 3 本体的功能 现在已经有相当多的文献给出了本体的描述和本体的使用目的。大多 数的应用实例都是为了实现“重用”,都是把本体论当作一种构建知识的 一种方式或者当作知识库的一部分。另一个重要的用途是信息集成。这种 方式主要体现在商业事务的集成,分布式多代理系统和并发处理工程的设 计上。乌萨丘德( m u s c h o l d ) t 2 1 1 等人认为本体的功能主要有: ( 1 ) 信息交流( c o m m u n i c a t i o n ) 本体的核心概念是知识共享。通过减少概念和术语上的歧义,本体描 述为某一组织或是工作小组提供了一个统一框架或是规范模型,使得来自 不同背景,持不同观点和目的的人员之间的理解和交流成为可能,并保持 语义上的一致性。 ( 2 ) 互操作( i n t e f o p e r a b i l i t y ) 在不同的建模方法、范式、语言和软件工具之间进行翻译和映射,以 实现不同系统之间的互操作和集成。 ( 3 ) 系统工程( s y s t e m se n g i n e e r i n g ) 本体分析能够为系统工程提供以下方面的好处: 重用( r e u s a b i l i t y ) :本体是领域内重要实体、属性、过程及其相 互关系形式化描述的基础。这种形式化描述可成为软件系统中可重用和共 享的组件( c o m p o n e n t ) 。 知识获取( k n o w l e d g ea c q u i s i t i o n ) :当构造基于知识的系统时,用 已有的本体作为起点和基础来指导知识的获取,可以提高其速度和可靠 性。 可靠性( r e l i a b i l i t y ) ;形式化的表达使得自动的一致性检查成为可 能,从而提高了软件的可靠性。 规范描述( s p e c i f i c a t i o n ) :本体分析有助于确定信息系统( 如知识 库) 的需求和规范。 总的来说,构造本体的目的都是为了实现某种程度的知识共享和重用。 本文认为本体的功能概括起来主要在以下几个方面: ( 1 ) 实现知识的共享。开发本体的主要目的之一就是在人们和软件智 能体之间对信息结构的理解提供一种可共享、共同的理解机制。 ( 2 ) 实现知识的重用。通过维护、扩充本体,使得面向某一领域的应 用系统的开发工作不必从头做起,大大缩短了开发周期,节省了开发费用。 ( 3 ) 分析知识,辅助知识获取。某一领域本体可以辅助该领域专家更 好的理解领域知识,领域专家反过来扩充该领域本体,使得领域本体的表 示更加完备、内容更加丰富。当构造基于知识的系统时,用已有的本体作 为起点和基础来指导知识的获取,可以提高其速度和可靠性。 ( 4 ) 知识的标准化。本体为人们描述目标世界提供了一组通用词汇, 这种通用的词汇正是实现知识系统化的基础。通用词汇和知识的系统化有 利用实现知识的标准化。本体分析有助于确定信息系统的需求和规范。 通常情况下,建立本体的真正e l 的不是建立本体本身,而是为应用系 统提供一组公共的概念和知识结构,在本体的基础上建立知识库,提供给 应用系统加以利用。 2 1 4 本体的描述语言 本体语言为用户对领域模型编写清晰的、形式化的概念描述,因此它 应该满足以下要求: 夺良好定义的语法( aw e l l d e f i n e ds y n t a x ) 夺良好定义的语义f aw e l l d e f i n e ds e m a n t i c s ) 夺有效的推理支持( e f f i c i e n tr e a s o n i n gs u p p o r t ) 夺充分的表达能力( s u f f i c i e n te x p r e s s i v ep o w e r ) 夺表达的方便性( c o n v e n i e n c eo fe x p r e s s i o n ) 本体语言不仅要有描述能力,同时也应具备推理能力,因此它一般都 是基于某种逻辑语言的,目前开发的本体语言主要是基于一阶逻辑和描述 逻辑的。虽然高阶逻辑是所有已知逻辑中表达能力最强的,但是它没有好 的计算性,虽存在真命题,但不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 英文国际海运合同模板
- 校企合作合同延期详情在线查阅
- 绿色建筑环保验收服务合同
- 脾脏影像诊断
- 技术合作合同
- 历史遗留房屋买卖合同样本
- 含外债离婚合同范本
- 度新能源设备供应合同
- 科研成果转化合同
- 合同范本揭秘:演艺经纪合作指南
- 人教版四年级英语下册教学课件-四下recycle1 第一课时
- 职业教育数字化转型
- 2024年电子商务新兴业态探讨试题及答案
- 2025版《保障中小企业款项支付条例》学习解读课件
- 开封尉氏县事业单位招聘工作人员考试真题2024
- 空调改造安装合同
- 2025年中考道德与法治专题复习:非选择题答题指导与答题模板 课件67张
- 2025年浙江安防职业技术学院单招职业技能测试题库必考题
- 奔驰事故留修专员年终总结
- 患者隐私保护培训课件
- 四川凉山州人民政府办公室考调所属事业单位工作人员2人高频重点提升(共500题)附带答案详解
评论
0/150
提交评论