(农业电气化与自动化专业论文)基于文本挖掘的动态本体构建方法研究.pdf_第1页
(农业电气化与自动化专业论文)基于文本挖掘的动态本体构建方法研究.pdf_第2页
(农业电气化与自动化专业论文)基于文本挖掘的动态本体构建方法研究.pdf_第3页
(农业电气化与自动化专业论文)基于文本挖掘的动态本体构建方法研究.pdf_第4页
(农业电气化与自动化专业论文)基于文本挖掘的动态本体构建方法研究.pdf_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国农业大学博士学位论文摘要 摘要 本体( o n t o l o g y ) 是资源共享的基础,它提供了对领域知识的共同理解本体的应用范围非 常广泛。但本体的构建却是一项非常费时,费力的工作目前,本体的建立基本还是采用手工静 态构建的方式。而本体的构建应具备不断更新的动态特性现实生活中信息的主要载体是非结构 化纯文本数据,如何利用文本挖掘、信息抽取、机器学习等知识获取技术动态构建本体是本体自 动或半自动构建所面临的挑战。 叙词表( t h e u n m a ) 作为上世纪发展起来的文献标引工具,概括了领域内绝大部分相关的术 语和基本关系,并具备大量丰富的主题标引文献,是构建领域本体的重要来源本文比较分析了 叙词表与本体的结合方法,并在此基础上提出了基于文本挖掘的动态本体构建( d y m m i c o n t o l o g y c e 岫l 硎b a s e do i lt e x tm i n i n g ,d o c t m ) 模型。该模型结合叙词表提供的已有知识,将叙词表 的描述形式转换为本体的概念模型,同时利用叙词标引的主题文献进行文本挖掘构建动态领域本 体,从主题文献库中识别领域概念,进而挖掘并细化概念问的属性和关系 针对文本挖掘中难以准确获取概念间关系的状况,为提高关系抽取的准确度,本文提出了领 域种子关系( s e e dr e l a t i o ni nd o m a i n ,s r d ) 的概念和思想。结合自然语言处理方法,通过 确定种子关系进行关系挖掘。本文详细论述了s r d 的抽取,基于s r d 生成关系陈述集,以及通 过关联规则挖掘进一步抽取属性规则的方法。 作为d o c t m 动态本体构建模型的构建工具和检验平台,本文设计并开发了基于d o c t m 的本 体构建原型实验系统该实验系统结合叙词表提供的现有资源,以领域叙词表和该词表标引的非 结构化纯文本语料为输入,通过静态模型转换、动态概念挖掘、基于s r d 的关系抽取以及关联 规则挖掘,动态构建领域本体。 本文选用多语种农业叙词表a g r o v o c 和中国农科院科技文献作为实验系统的输入数据。 结果表明:系统实现了d o c t m 动态本体构建的基本功能;领域叙词表为动态本体构建提供了质 量保障;s r d 是一种有效获取概念间关系的途径,借助种子关系可以从纯文本中提取概念间的关 系;通过对o w l ( w e bo n t o l o g yl a n g u a g e ) 定义的属性进行规则分析及关联规则挖掘可以得到 概念间的部分规则。从而使本体初步具备了一定的推理能力。 关键词:文本挖掘,叙词表,动态本体构建,领域种子关系,关联规则 中国农业大学博士学位论文a b 甜a a e t a b s t r a c t o n t o l o g y , w a i e hi j r o v i d e sr e l x e a t a t i o no fc o m m o nk n o w l e d g e , i st h ef o u n d a t i o no f 出盯i 驾 t c s o l l u r c c i ti 毫w i , t c l yu 试b 眦j 舡c o n s t r 嘶o nhs t i l ltt e d i o u s 柚dd i t t i e u l t 协kl l o w a d a y l 珊i d i r e s e e ho no n t o l o g yf o c u s e so l lt h c n 血q :6 0 no f s t a t i co n t o l o g y i - l o wt o 伽删蝴d y m l i ca m i o 嚣 u s i n gt c x tm i n i n g , i n f o r m a f f o n n a e t i o n , m a c h i n el e a r n i n ga n do l h 尊i n f o r m a t i o n 慨h o i o 毋1 1 1a d i f f i c u l tl x r o b l e mi no n t o l o g y 锄n d d n 玎k 畦饥 h a v i n g 慨o r g a n i 捌b yd o m a i n 蕊p a t s , 山d h ,辞m 妯d 啦t o o ld e v e l o l , c al a s te a a t u r y , h a 毒霸矗叫嘣o e da h n o s t 枷t a l mm a dr c l a t i o mi nt h e i rd o m n i nk n o w l c , 帆t 慨啪l a r g en u m b e r so f l i t e r a t u mo fw h i c hl a j l , j e a smi n d e x e db yt l a mc o m l w i n gt h ei r a d i t i o m lt l a e w n mw i 血 o t l t o l o g y , t h i sp e t e rp r o v i d t h em e t h o do fd y e , m i co n t o l o g yc o m l n l 商o nb ;i 耐o nt e x tm i n i n g f i 峨出髑羽瑚嵋i st r a 越f o m a e di n t o 伽曲x p ts c h e m a t h e nw 霉潍m i n el h ef u l t h c i r d a t i o m l a i pa m o n g c o n c e p t sf r o ml i t e r a t u r e so fw h i c hs u b j e c t s 躺i n d e x e db yt h e s a l l l l i i kt h e r e f o r e 曲m i ca n dp e r f 醐 d o m a i no n t o l o g yw i l lb ce o m t r u e t e d i no r d e rt oi :x l l * a c tt h ee x a c tr e l a t i o n sa m a o n gc m c e p 恤f r o mt h en o n - s m l e t l n - a lt e x t , t h i sp a p e r p l 踟忸t h ei d e ao fs e e dr e l a t i o ni nd o m a i n s r dc o m b i n e so n t o l o g yc o m t r u e t i o nw i l hm 胁m l l a n g u a g ep r o c e s s t h r o u g l lw h i c hw cc 缸o b t a i nt h ep r o p e rr e l a t i o n t h i sp a p e rp r o v i d e st h em e t h o di n d e t a i l a sad y m m i eo n t o l o g yc o n s t r u c t i o nt o o la n da p r o o f s y s t e m , ad o e t mp r o t o t y l 毙i sc l e s i g n e da n d i m p l e m e n t e d t h i ss y l i t e f l li sb 日5 c d d o m n i nd m $ 自m i o 柚dl i t e l n t n a i n d e x e db yi ti tl x o v i d e s c o m p o n e n t ss u c h 勰s t a t t i cs c h e d l n 8t r a m f o m a , d y l _ a m i ce o n c , e p t sm i n i n g , r e l a t i o n se x t r a c t i o nb e s e do l l s l i d , a s s o c i a t i o nr u l e sm i n i n ga n ds oo m a g r o v o c , w l a i e l ai sam u l t i l i n g u a t , s t r u c t u r e da a dc o n t r o l l e dt l a e s a u r t l sd e s i g n e dt oc o y l y t h e t e r m i n o l o g yo fa l ls u t , j 鲥f i e l d si na g r i c u l t u r e , a n dt h el i t e r a t u r e so b t a i n e di nc h i n e s ea c a d e m yo f a g r i c u l t u r a ls c i c l a c c s , 玳u s e d 鸹t h e 缸p i | ld a t ai ni x ) c t m mc o n c l u s i o ni sf o l l o w i n g md o e t m p r o t o t y p ec c o n s t r u c to n t o l o g yd a n a m i e a l l ya c c u r a t e l y d o m a i n t h e s a u r u si n s u r e st h eo n t o l o g y c o n s t r u c t i o n s r di sap r o p e rw a yi nr e l a t i o ne x t r a c t i o n t h er u l e sc a nb eo b t a i n e db ya 8 s o c i a 6 蛐r u l e s m i n i n gb a s e do l lo w l k e yw o r d s ;t e x tm i n i n g , t h e s a u a u s ,功i co n t o l o g yc o o s l n i 商o u , s e e dr e l a t i o ni nd m a i n , a s s o c i a t i o nr u l e s n l 中国农业大学博士学位论文 图表目录 图1 - 1 d 2 r 映射流程 图表目录 图2 - 1 描述逻辑的系统结构 4 1 2 1 2 1 4 l s 图2 - 2 本体描述语言的发展过程 图2 - 3 本体分类图。 图2 - 4 领域本体动态构建模型基本框架 图2 - 5 文本挖掘过程 表3 - 1a g r o v o c 基本语义参照关系表 图3 - 1 叙词表结构比较 图3 2 人类知识之间的关系图 图3 3 叙词关系示例 图3 4 基于s k o s 的叙词表r d f 图。 图4 - 1d o c t m 模型工作流程图 图4 _ 3 中国农科院科技文献信息数据库 图4 _ 4 基于文本的本体挖掘层次图 表5 - 1 词性标注信息表 表5 - 2r r m 算法输出结果表 图5 - 1 关系挖掘过程 图5 - 2 r d f 三元组 2 l 2 2 2 3 2 8 3 3 3 4 3 5 3 6 4 4 6 l 4 l 图5 - 3 汉语组织结构 图5 - 4 动词驱动句法树 图5 5 根节点动词统计图 图5 - 6 领域概念属性信息 图5 7 概念相关性信息 图5 - 8 相关谓词信息 图6 - l 实验系统整体架构 图6 - 2 本体构建界面 图6 3 本体查询界面 图6 4 本体修改编辑界面 4 2 4 3 4 6 5 0 5 2 5 3 6 2 v l 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得中国农业大学或其它教育机构的学位或证书 而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示了谢意。 研究生签名: 二面时间: ) 7 年月,锢 关于论文使用授权的说明 本人完全了解中国农业大学有关保留、使用学位论文的规定,即:学校有权保留 送交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复 制手段保存、汇编学位论文。同意中国农业大学可以用不同方式在不同媒体上发表、 传播学位论文的全部或部分内容。 【保密的学位论文在解密后应遵守此协议) 研究生签名:多砀时间: 洲年月i o 日 导师签名: 确兰 时间:酗7 年f 月口日 中国农业大学博士学位论文 第一章引言 i i i 1 1 研究背景、目的和意义 第一章引言 本体( o n t o l o g y ) 最早是一个哲学的范畴,在西方哲学史中,本体论是指关于存在及其本质 和规律的学说,1 7 世纪初被提出,用于避免。形而上学( m a a p h y 譬i c * ) ”中的一些二义性问题, 1 8 世纪初被哲学界广泛采用,2 0 世纪的分折哲学中本体论正式成为研究实体存在性和存在本质 等方面的通用理论i i j 随着人工智能的发展,本体的定义在计算机界经历了一个不断深化的过程1 9 9 1 年n e c h e s j 等人将本体定义为。相关专题的基本术语和关系。以及利用这些术语和关系构成该 专题的规则的集合。这个定义给出了知识工程中的本体的一个基本指南,期:要建立本体, 首先要识别所面对领域的基本术语和这些术语之间的关系,然后要识别组合这些术语和关系的规 则,并提供这些术语和关系的定义1 9 9 3 年g r u b e r l 3 1 给出了本体的一个最为流行的定 义,即。本体是领域概念模型的明确的规范说明”这个定义强调了给出形式解释的可能 性,在知识共享的情况下,本体的形式描述为具有代表性的词汇的定义一种最简单的形式是层 次结构,用来详细描述类和它们之间的包含关系。关系数据库的框架( s c h e m a t a ) 也是一种本体, 它用来描述能共享的数据库之间的关系和集成这些数据库需遵循的约束 2 0 世纪9 0 年代初期,国际计算机界举行了多次关于本体的专题研讨会,本体成为包括知识 工程、自然语言处理和知识表示在内的诸多人工智能研究团体的热门课题,其主要原因在于本体 使人与人、人与机器、机器与机器之间的交流建立在对所交流领域的共识基础上本体在知识库 系统开发中较多应用于开发领域模型,它提供了建模所需的基本词汇并说明了它们之间的关系。 建立大型知识库的第一步就是设计相应的本体,这对于整个知识库的组织至关重要 本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可 的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇之间相互关系的明确定义 本体可以很好的解决知识表示、知识组织及知识共享等问题,在信息检索、机器翻译、电子商务、 知识j :程、软件= 程及数字图 5 馆等领域具有广阔的应_ h j 前景。目前,本体研究主要针对以卜| 三 方面内容: 理论模型上的研究,主要研究本体的构建,本体学习,本体融合,概念、分类及关系的 获取等,在理论上为建模提供一个通用的模式; 信息系统中的应用,主要针对当前知识管理中存在的问题,解决信息组织、信息检索、 信息抽取和异构信息系统互操作问题: 在语义w 曲【4 1 中的应用,主要解决w 曲上资源的共享和重用问题,为w e b 上的资源附 加上机器可理解的内容,便于给出计算机能够理解的表示资源手段,提供一种在知识层 共享和重用的工具。 中国农业大学博士学位论文第一章引言 其中,本体构建是本体应用的前提和基础,也是实现语义w e b 的底层保障,如何充分利用已 有资源构建本体成为当前的热门研究课题 在过去的l o 年里,已经出现了许多本体构建工具,从最早的o n t o l i n g e a p ,o n t o s m m m l 6 , w e b o n t o 7 1 ,到p r o t e g e - 2 0 0 0 t q ,w e b o d e l 卿,0 e l e d l ”,o n t o e d i t l l “,以及k a o n 1 2 1 等,本体构建 工具也日趋成熟。这些工具提供了友好的图形化界面和一致性检查机制借助这些工具,用户可 以把精力集中在本体内容的组织上,而不必了解本体描述语言的细节,而且避免了很多错误的发 生,方便了本体的构建。但是,这些工具提供的仅仅是本体编辑功能,支持的仍然是手工构建本 体的方式。即使使用这些本体编辑工具。用户依然需要逐个地输入和编辑每个概念的名字、约束, 属性等内容。因此,如何利用知识获取技术来降低本体构建的开销是一个很有意义的研究方向 目前,利用机器学习和统计等技术自动化或半自动化的本体建模研究成为相关领域最活跃的 研究方向和热点之一,很多国内外的科研人员都在从事这方面的工作,并开发了一些相关的工具 国内在本体方面的研究刚刚起步,并且研究重点主要集中在如何利用本体来解决语义问题,而专 门针对本体动态构建方面的研究成果比较少,还没有一个能够支持中文的本体动态构建工具由 于中文语法的复杂性,自动或半自动动态构建本体确实存在很多困难,单纯依靠统计的手段或现 有的与语言无关的算法很难获得令人满意的结果,必须结合中文自然语言处理领域的研究成果, 使用一些基于语言规则的方法来改善本体构建的质量。随着本体在计算机科学领域的应用日益广 泛,针对中文语言的特点展开相关研究并开发相应的工具是很有必要的。 本文研究工作的目的是通过尝试,提出自己的思路和处理办法,并试图解决动态本体构建中 的一些重要问题。具体问题包括: ( 1 ) ( 2 ) ( 3 ) 如何获取有价值的已有资源,并将其转化为本体知识来源,以降低本体建模的成 本。 目前w e b 上和现有知识库中最重要的资源是非结构化纯文本数据,如何结合中文 自然语言处理( n l p ) 技术,利_ i j 数据挖掘、统计、机器学习等手段获取知识, 完成本体的动态构建。 7 如何完成本体的循环演化完善本体的组成,并使其具备一定的推理能力。 1 2 国内外研究现状 1 2 1 本体构建方法 在过去的十年中,对本体的研究大多集中在本体描述语言的规范制定,本体编辑工具的设计, 以及本体在语义w e b 中的简单应用。在本体构建理论方面,国外也做了大量研究工作,并将其运 用于知识工程领域,如:t o v e “4 ( t o r o n t ov i r t u a le n t e r p r i s e ) 、骨架法【l s l ( s k e l e t a lm e t h o d o l o g y ) 、 m e t h o n t o l o g y 1 “7 1 、k a c t u s ”、s e n s u s t l 9 博。t o v e 本体开发方法特别强调对本体的 2 中国农业大学博士学位论文第一章引言 评价,主要基于本体的完备性理论,在对本体进行维护时,这些理论具有重要的作用,任何对本 体的操作,如本体扩展,都应该保证改动后的本体仍然满足完备性理论骨架法( b 弛l e t a l m e t h o d o l o g y ) 又称e n t e r p r i s e 法,该方法将软件工程的思想运用到本体构建中,从目的和范 围分析入手,将本体构建划分为五个步骤,主要针对企业本体的构建m e t h o n t o i , ( ) 0 y 本体 开发方法由匿班牙马德里理工大学人工智能实验室提出,该方法是在s k e l o a lm e t h o d o l o g y 方法 的基础上提出的一种更为通用的本体建设方法,该方法更加接近软件工程的开发方法,将本体的 开发划分为以下阶段:规格描述、概念化、形式化、集成、实现,最后本体进入维护阶段。k a c r u s 是欧洲e s p r i t 的一个项目,目的是开发出技术系统全生命周期的知识重用方法学,以便在设计、 诊断、操作、维护再设计和培训时使用同一知识库。k a c t u s 为本体开发方法提供了一种重要 的思想。那就是剪裁已有的本体以适应特定应用本体,这种思想在本体的实际开发中具有重要的 意义s e n s u s 本体用于自然语言程序,主要目的是为机器翻译提供广泛的概念结构 上述方法论大都是本体的工程化构建过程近年来,在计算机科学中关于本体的研究越来越 多。利用机器学习、数据挖掘和统计等技术自动或半自动动态构建本体的的方法逐渐成为计算机 科学领域的一个研究热点。根据本体的构建来源不同,目前针对动态本体构建的研究方向主要分 为三大类:基于结构化数据的本体构建、基于非结构化数据的本体构建和基于半结构化数据的本 体构建 基于结构化数据的本体构建 结构化数据主要包括关系数据库或面向对象数据库中的数据由于目前面向对象数据库应用 范围有限,所以重点研究方向是从关系模型中获取本体1 9 9 9 年k a s h y a 扩”提出首先根据关系模 式得到一个初步的本体,然后基于用户查询进一步丰富该本体中的概念和关系由于用户查询具 有很大的随机性,所以很难保证结果的质量2 0 0 2 年,s t o j a n o v i c 等人 2 t l 通过考察数据库中的表、 属性、主外键和包含依籁关系,给出了一组从关系模型到本体的映射规则基于这些规则能够直 接得到一个候选本体,然后可以进一步对该候选本体进行评价和精炼,生成最终的本体。实际上, 一种更为可行的方法是分析数据库中的元纽,得到更多隐含的语义信息2 0 0 4 年,a s t r o v a z 2 1 已 经通过对元组的分析,得到了概念问的。继承”关系。目前国内在基。r 结构化数据进行本体构 建方文献和研究报道相对较少。哈1 二大的韩石等人田1 提出先从数据库资源生成中间实体,再将中 间实体映射成本体概念的构想,其中对中间实体进行了形式化定义与描述,并对中间实体生成方 法及概念生成方法进行研究与讨论。 基于关系型数据库的本体构建代表性的工具是d 2 r 掣。d 2 r 处理器原型使用j a v a 实现,基 于j e a aa p i ,实现了d 2 r 映射语言,可以将关系型数据库中的数据映射到本体模型。d 2 r 的工 作原理如图1 - i 所示 首先,从数据库表中选取相同类别的记录集( r e c o r ds e t ) ;记录集按照具体映射类别进行分 组;然后创建类的实例,并用相应的u r i 进行标识,或用空节点标识;最后根据表结构中的数据 类型和约束条件创建实例属性。 3 中国农业大学博士学位论文 第一章引言 圈 + 一圈 圈 圈 田1 - 1o 篮映射流程 基于非结构化数据的本体构建 非结构化数据是指没有固定结构的数据。其中。纯文本是w e b 中大量存在的一类非结构化 数据,也是最重要的一类,可以用来获取本体的数据源。目前,基于非结构化数据的本体构建技 术的研究主要集中在从纯文本中获取本体。纯文本依据一定的造句法表达特殊的语义,使得读者 可以基于一些背景知识来理解其中的含义。然而,由于缺乏一定的结构,要使机器能够自动地理 解纯文本并从中抽取出所需要的知识,则必须利用自然语言处理( n l p ) 技术对其预处理,然后 利用统计、机器学习等手段从中获取知识。对于概念的获取,现有的方法可以分为3 类:基于语 言学的方法、基于统计的方法和混合方法 基于语言学的方法渊,主要根据领域概念的特殊词法结构或模板,寻找和抽取结构符合 这些特定模扳的字符串由于这些模板在大多数情况下是与具体语言相关的,因此,这 类方法要求针对具体的语言作相应的处理 基于统计的方法口删主要根据领域概念与普通词汇拥有不同的统计特征( 例如,领域相 关性和领域通用性) ,以鉴别出领域概念。大多数基丁| 统计的方法关注于多字词汇( m w o r du n i t ,简称m w u ) 的抽取,主要方式是计算各组成部分之间的联系群度。 混合方法【”1 1 往往是结合语言学和统计学的技术,有的是在统计处理之后采用语法过滤 器,以便抽取出经过统计计算有意义的、与给定词法模板匹配的词汇组合;有的则是首 先采用语言技术选出候选项,然后再用统计方法对这些候选项进行计算。 与国外相比,国内在领域概念的自动抽取方面,特别是中文领域概念的自动抽取的研究工作 相对较少。在2 0 0 3 年的第7 届全国计算语言学联合学术会议上,东北大学的陈文亮等人【”1 提出 利用b o o t s t r a p p i n g 的机器学习技术从大规模无标注真实语科中自动获取领域词汇2 0 0 5 年, 山西大学郑家恒等人提出采用非线性函数与。成对比较法”相结合的方法,综合考虑位置和词 4 中国农业大学博士学位论文第一章弓信 频两个因素,给出候选词的权重,实现了关键词的自动抽取2 0 0 5 年,上海交通大学的社波等人 叫1 提出了一种将统计方法与规则方法相结合的专业领域术语抽取算法 对于概念问关系的获取常用的方法有;基于模扳的方法、基于概念聚类的方法、基于关联 规则的方法、基于词典的方法。或者这些方法的混和。 基于模板的方法 3 知3 e - 1 ,是指通过分析领域相关文本,总结出一些频繁出现的语言模式作 为规则,然后判断文本中词的序列是否匹配某个模式如果匹配,则可以识别出相应 的关系例如:可以将一个非常简单的字符串匹配( i s ) 作为一个模式。那么,满足 该模式的一对概念就可以认为具有。i s a ”关系。这些模式可以是手工定义的,也可以是 从某些样本句子中学习得到的这类方法的主要缺点是准确度低,因为大量无用的概念 对往往也会匹配这些模式,而且模式的获取是否完备对于获取效果影响较大 基于概念聚类的方法是利用概念之间的语义距离,对概念进行聚类。这样,同一类簇中 的概念具有语义近似的关系。同时,也可以进行层次聚类,聚类的结果就是概念间的分 类关系关于概念层次聚类的研究有很多,例如。f i s h e o j 7 悭出了一种基于矢量的聚类 方法,b i m o n t 3 9 和e r o d e 等人删提出了基于f o l 的聚类方法。这些方法共同的局限性是: 只能得到概念问严格的层次关系( 即树状的层析结构) ,然而在本体中一个概念却可以 有多个父概念。为此。f a m e 等人【柏1 采用宽度优先的方法对概念进行逐层聚类,较为特 殊的是,它在进行每层聚类的时候都要考虑所有的簇而不管这些簇所在的层次显然, 该方法还有一个附加的约束,即一个簇不能和它的父簇进行聚类。这样得到的结果是一 个无环图,图中两个结点问的连线表示概念阃的层次关系 关联规则挖掘的方法常用于获取概念问的非分类关系,其基本思想是:如果两个概念经 常出现在同一文档( 或段落,或句子) 中。则这两个概念之问必定存在关系。2 0 0 0 年, m a e d c i l c 等人韫先描述并评价了将关联规则应用于本体构建的方法。2 0 0 1 年,m a e d c h e 等人m 又提出使用已有的概念层次作为背景知识,然后利用关联规则来发现概念问的非 分类关系的方法 基于词典的方法往往根据一些现有的词汇词典中定义的同义词、近义词和反义词等知识 来获取本体中概念问的关系。例如,n a k a y a 等人m 】使用w m d n e l 来获取概念间的分类 关系 混和方法往往是同时使用上述若干种方法,以期望得到更好的结果其中比较特殊的方 法是由m i s s i k o f f 等a | 2 ”和n a v i g l i 等人魄出的,他们提出利用机器学习技术基于已有 的通用本体对抽取出来的术语进行语义解释,即为这些术语关联上明确的概念标识符: 然后,基于这些语义解释来确定概念之间的分类和相似关系,生成一个领域概念森林。 与其他方法相比,该方法的主要特点是对术语进行语义解释,然后使用这些语义解释来 5 中国农业大学博士学位论文第一章引言 获取除分类关系以外的其他概念间的关系,而其他方法都是将术语等同于领域概念这 种做法的好处是可以确定复杂术语的正确含义及其语义关系对于一个复杂术语,该方 法首先确定与该术语的各个组成成分相对应的概念,然后根据这些概念问的语义关系来 构造相应的复杂概念该步骤的结果是得到一个领域概念森林,它表示了这些复杂概念 问的分类关系和其他关系 基于非结构化数据的本体构建代表性工具是锄吼月m 降o 】和亿“u o n 幻m o n t o l e a m 是u n i v e r s i t yo fr o m e 开发的个基于文本的本体构建工具,它能够获取概念及其关系其主要 特点是:将语义解释的方法应用到本体获取中,即首先使用基于语言学和统计的方法从一组文本 集中抽取出领域相关的术语,然后使用通用本体中的概念对这些术语进行语义解释,从而确定术 语之间的分类和其他语义关系o n m l e m n 选择w o r d n e t 作为通用本体,使用w o r d n e t 中的概念 对获取的术语进行语义解释,从而使所构建的领域本体与w o r d n e t 具有明确的关系,这样的好处 是有利于不同领域本体之间的互操作和一致化t e x t - t o - o n t o 是u n v e r s i t yo f k a d s r u h e 开发的一 个整合的本体构建工具其主要特点是可以支持从多种数据源中获取本体。目前,它已经可以做 到从非结构化数据( 纯文本) 和半结构化数据( h n 也,词典) 中获取概念及其关系 基于半结构化数据的本体构建 半结构化数据是指具有隐含结构,但缺乏固定或严格结构的数据【撕1 。w e b 中的半结构化数据 很多。例如大量的x m l 格式和h t m l 格式的网页。以及它们遵循的文档类型定义( x m ls c h e m a 或d t d ) ,还有越来越多的用r d f ( r e s o u r c ed e r i p t i o af r a m e w o r k ,资源描述框架) 标注的同 页,都可以作为本体学习的数据源 对于x m l 、h t m l 和r d f 等格式的网页,可以直接使用那些从纯文本中获取本体的方法。 例如,p a p a t h e o d o r o u 等人1 7 1 给出的从x m l 或r d f 格式的文档中获取概念间分类关系的方法; 首先抽取出表示每篇文档内容的关键词然后基于这些关键词使用聚类技术,将文档集分成不同 的组,保证同组内的文档内容是相似的;接着,使用统计的方法选出晟能表达每组文档内容的关 键词;将这些关键词作为本体中的概念,并根据先前聚类的结果给出概念间的分类关系。 对于模式语言( 例如x m ls c h e m a 或i y r d ) ,因为它们描述了x m l 数据的层次结构,通常 认为它f j 是x m l 的逻辑模型。所以类似丁:从结构化数据中获取本体。对于这些数据通常采用映 射技术,即利用一些映射规则将其中的一些元素映射到本体。其中的研究重点是映射规则的发现, 现有的方法可以分为两类: 一类是基于学习的方法,即利用一些自学习的手段自动获取,例如k a v a l e c 等人l 锎重点 研究了利用机器学习方法自动地得到映射规则。 另外一类是基于预定义规则,即用户预先给出了一些规则,例如d o a n 等人i 静】和m e l l o 等人【蛐i 使用预定义的规则,从d t d 中提取语义信息生成相应的概念模式,然后对这些 概念模式进行语义集成得到本体。 6 中国农业大学博士学位论文 第一章引言 基于半结构化数据的本体构建代表性工具是o n 幻& l 湖e 一”。j 和o n t o l i f r l 5 ”o n t o b u i l d e t 是 m i s s m i p p is t a t eu n i v a i r y 开发的一个从x m l 和h t m l 中获取本体( 包括概念及其关系) 的工 具它看起来像一个w e b 测览器,当使用它来获取本体之前,需要手工构建一个初始的领域本体; 然后,在用户浏览包含相关领域信息的网站的过程中,该工具会为每个网站生成一个候选本体: 最后,在用户的参与下将这些候选本体与初始本体合并o n t o l i f r 是u a i v i t yo f k a d m f l k 开发 的一个从半结构化数据( x m ls 曲,d t d ) 和结构化数据( 关系数据库) 中获取本体( 包括 概念及其关系) 的工具对于这两种类型的数据源。它都采用基于映射规则的方法来获取本体 1 2 2 研究现状分析 本体构建方法论大多是在具体的本体建设项目中提出来的。这些方法之间没有太大的差别, 都是和软件工程中常见的开发过程类似,主要针对的是本体构建的工程化流程。在自动或半自动 的动态本体构建方法中,基于结构化数据构建本体的研究主要集中在对关系模式进行语义分析, 从而构建相对简单的本体基于非结构化数据动态构建本体的研究主要集中在从纯文本中获取本 体,目前无论国内还是国外基于统计的方法都是主流半结构化数据介于结构化和非结构化数 据之闻,所以基于上述两种数据类型的动态本体构建技术也可以应用到这类数据源 自动或半自动的本体动态构建研究虽然是一个新兴的研究领域,但是许多相关领域的研究成 果都可以供其借鉴。目前w e b 上和现有知识库中最重要的资源是非结构化纯文本数据,自然语言 处理技术是基于纯文本构建本体的基础。除此之外,领域概念的识别、w e b 数据的抽取、机器学 习等技术都极大地促进了本体构建研究的发展然而,由于动态本体构建任务自身的特殊性,该 领域仍然存在许多有待解决的问题总结起来有以下几个方面: 1 本体的知识获取问题 构建本体的知识库质量直接影响构建出的本体质量虽然针对数据源结构化程度( 结构化、 半结构化、非结构化) 前人已做出了探索性研究,但构建本体的知识库并不完善。与关系型数据 模型相比,本体是一种具有更多语义、结构更为复杂的模型。由于关系模型中蕴涵的语义十分有 限,所以通过关系模型获取本体的方法只能用来构建轻量级的本体( 即结构较简单的本体) 就 基于1 f 结构化数据进行本体构建米说,纯文本依据一定的造句法表达特殊的语义,使得读者可以 基于一些背景知识来理解其中的含义。然而,由于纯文本缺乏一定的结构,要使机器能够白动地 理解纯文本并从中抽取出所需要的知识,自然语言处理技术的完善是一大难点就基于半结构化 数据的本体构建来说,现有的方法往往是将其按照纯文本对待。没有充分利用其隐含的结构化信 息。 2 本体构建方法的改进 虽然目前已经提出了很多本体动态构建方法,但大部分方法都不理想。就基于结构化数据的 本体构建来说。现有方法一般只考虑关系模式的语义,而没有进一步去挖掘大量元组中包含的语 义信息,所以获取的概念数量和关系种类都非常有限。基于非结构化数据动态构建本体是目前研 究较多的一个方向,但是仍然没有一个成熟的领域概念获取方法。目前概念获取的方式以统计为 7 中国农业大学博士学位论文 第一章引言 主,希望自动抽取领域概念在自然语言处理技术还不完善的条件下,仅仅通过统计抽取出的概 念准确度相对难以得到保障而概念间非分类关系的获取,大部分方法都停留在判断两个概念之 间是否存在关系的层次上,无法进一步为获取的关系赋予相应的语义标签,即得到的都是。匿名。 关系 3 本体构建工具的完善 目前,大部分本体构建工具是基于手工构建的本体编辑工具。虽然也有半自动构建本体的工 具出现,但这些半自动本体构建工具的功能都非常有限,它们都仅能处理某些类型的数据源,而 且由于构建方法的局限性,这些工具仍然很不成熟虽然目前还缺乏客观的评价标准,无法准确 地对这些半自动本体构建工具进行定量评价,但通过使用可以感觉到它们无论在功能上,还是稳 定性、易用性等方面与实际应用还有一段距离 4 本体质量评估 目前,本体构建结果的评估方法可以分为3 类:基于应用的方法、基于。g o l d e ns t a n d a r d ” 的方法和基于专家评价的方法。其中:基于应用的方法是通过选择一些相关的应用,根据这些具 体应用的结果来评价本体的质量;基于。g o l d e ns t a n d a r d ”的方法是使用一些现有的手工构建的 本体作为。g o l d e ns t a n d a r d ”,将模型构建出的本体与其相比;基于专家评价的方法是邀请一组 领域专家对构建出的本体进行人工评价在这些方法中,相关应用的选择、。g o l d e ns t a n d a r d ”的 选择、领域专家的选择都会极大地影响评价的结果,所以说很难使用它们对本体构建结果进行客 观的评价。所以,如何对本体构建结果进行定量的评价是一个重要的研究方向,也是一个迫切需 要解决的问题。 1 3 研究内容和方法 本文的研究工作及采用的方法主要包括以下三个方面: i 叙词表( t h e s a u r u s ) 作为上世纪发展起来的文献标引工具,经领域专家多年的有序组织, 概括了领域内绝大部分相关的术语和基本关系,从某种意义上讲,已经基本具备了领域本体的原 型。叙词表在情报检索领域的应用相对成熟,拥有人量丰富的叙词标引文献库,是本体进一步动 态完善的良好资源本文在充分利_ 咐现有资源的基础上,分析叙词表的组织结构,比较叙词表与 本体的异同,综合结构化数据和非结构化数据的特点,提出基于文本挖掘的动态本体构建方法的 框架模型 2 本体动态构建的重点和难点是概念间关系的发现和抽取文本挖掘技术在这一环节起着 核心的作用。对叙词标引文献库的挖掘,首先需要自然语言处理( n l p ) 技术对其预处理,然后 利用统计、机器学习等手段从中获取知识。本文将结合叙词表转换构建的本体原型,深入研究和 分析自然语言处理技术在本体动态构建中发挥的作用,设计各种文本挖掘算法,以实现本体动态 构建过程中关系的发现和抽取,完善本体的动态构建过程。 3 设计开发本体动态构建测试系统。包括关系型叙词表的管理,文献知识库的存储,关系 8 中国农业大学博士学位论文第一章引言 型叙词表到本体描述的模型转换,文献库的文本挖掘算法集成,及专家参与的本体循环演化等功 能要求实现动态本体构建模型的各阶段流程。检验文本挖掘算法的有效性,半自动构建满足一 定实际需求的领域本体 其中,创新点总结如下: 1 在引入叙词表及叙词标引文献库的前提下。针对本体不断更新变化的动态特性,提出基 于文本挖掘的本体动态构建( d y n a m i c o n t o l o g y 酬o n b a s e d o n t e x t m i n i n g ,d o c t m ) 模型; 2 结合自然语言处理方法,提出了领域种子关系( s e e dr e l a t i o n i nd o m a i n ,s i m ) 的概 念和思想,通过确定种子关系进行关系挖掘,从而得到概念问的基本关系属性。并通过关联规则 挖掘算法进一步抽取概念间的o w l ( w e b o n t o l o g y l a n g u a g e ) 属性规则; 3 研究开发了基于d o c t m 模型的本体动态构建平台该实验平台结合叙词表提供的现有资 源,集成资源管理及文本挖掘的各个算法模块,实现了领域本体的动态构建,并提供专家参与的 修剪与评估接口 1 4 论文的组织 正文主要分为三个部分:第一部分( 1 、2 章) 阐述了本课题提出的背景、研究目的、国内外 研究现状、本论文的研究内容,深入研究分析了本体与文本挖掘技术的相关理论知识第二部分 ( 3 、4 、5 章) 探讨了本体与叙词表的结合方法,在此基础上提出了基于文本挖掘的动态本体构 建系统模型d o c t m 。详细分析了模型的系统组成及理论依据,针对该模型中核心的文本挖掘模 块,提出了基于s r d 种子关系抽取的关系挖掘方法,并对该方法的具体实现进行了相应的实验 分析。第三部分( 6 、7 章) 作为对全文工作主要思想的验证,介绍了动态本体构建平台原型系统 的设计和开发并对研究工作进行了总结,对未来重点研究方向和发展前景作出了展望 9 中国农业大学博士学位论文第二章相关理论和技术 第二章相关理论和技术 2 1 本体相关理论 本体能够以一种显式、形式化的方式来表示语义。提高异构系统之间的互操作性,促进知识 共享在计算机界。尤其是知识工程界,人们对本体的认识和定义经历了一个不断深化的过程。 2 1 1 本体的概念、基本组成和数学表达 1 9 9 1 年n c c h e s 2 1 等人最早对本体作出定义:相关专题的基本术语和关系,以及利 用这些术语和关系构成该专题的规则的集合这个定义强调了本体是一种领域基本 词汇的定义,将语言学研究成果和人工智能领域知识表示联系起来但是在人工智 能领域。被普遍接受的是1 9 9 8 年s 涮卅所作出的定义:共享概念模型的明确的形式化规范 说明s t i | d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论