




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于本体的自然语言检索研究论文导读:而自然语言检索具有方便、快捷、易于操作的特点,成为信息检索领域一大开展趋势。从2001年开始,一些专家、学者开始把本体理论应用到自然语言检索领域。目前关于本体构建的方法还没有一个明确而标准的体系构建方法【5】。关键词:自然语言检索,本体,本体构建随着计算机、网络与信息技术的迅猛开展,信息的产生、发布速度日新月异,使得现在的Internet和Web上具有海量的信息资源。而随着计算机和网络的普及,人们的信息意识也在不断增强。各行各业的人们都深刻意识到信息的重要性,对信息的需求也越来越迫切,信息用户群从原来的只有少数专业人员范围开展到了全民范围。面对庞大的网络信息
2、资源如何进行有效地组织,并提供快捷、方便的检索效劳,已经成为信息检索领域亟待解决的问题。常规的全文检索方式虽然可以保证查全率,但是查准率却大大降低,而基于数据库的检索方法,其性能取决于所使用的字段标识方法和用户对方法的理解,对于大多数没有经过检索培训的用户来讲,操作起来费时费力,具有很大的局限性,也不能满足用户在语义上和知识上的需求。而自然语言检索具有方便、快捷、易于操作的特点,成为信息检索领域一大开展趋势。现在自然语言检索系统可望扫除人与计算机系统的接口障碍,只是对自然语言如何进行分解取得准确的语义问题还有待更深入地研究【1】。从2001年开始,一些专家、学者开始把本体理论应用到自然语言检索
3、领域。本体具有能通过概念之间的关系来表达概念语义的能力,因而在信息检索,特别是在基于知识的检索中支持知识上、语义上的匹配,对检索系统的查全率与查准率有更好的保障。本体的最大优势还在于本体将某个或多个特定领域的概念和术语标准化,提供了人机交流的机制,使得机器可以理解语义,达成机器与机器之间、机器与人之间的语义互操作。要实现对Web上的知识信息的重用与共享,充分挖掘语义Web的潜力,就需要大规模采用基于本体的方法来组织信息资源。本文首先介绍了自然语言检索的优缺点及本体的概念,然后论述了自然语言检索与本体论结合的优势,最后提出了开发本体的方法。1 自然语言检索的优缺点1.1 自然语言检索的优点使用自
4、然语言检索不受繁琐的检索规那么限制,检索标识从源文的题名、文摘和正文中提取,符合大多数用户的检索习惯,用户使用自然语言描述他们的信息需求,用能准确反映自己意图的词语作为检索标识【2】。自然语言检索的优点可归纳为三个方面:(1) 自然语言检索不受词表限制,可以输入新生词汇,更有效地跟踪新事物的开展。(2) 自然语言检索以源文的内容作为检索标识,符合大多数用户的检索习惯,不受专业及使用检索系统能力的限制,能更快、更准确地命中检索目标。(3) 自然语言检索采用从文献中抽取标引词的方式,既加快了标引速度,又减少了文献内容的失真度,可以实现各数据库的标引和检索成果共享。1.2 自然语言检索的缺点自然语言
5、检索在情报检索语言中毋庸置疑是最为方便的一种检索语言,但是它还是存在很多问题,正是这些问题的存在使它不能完全取代情报检索语言。自然语言检索的缺点可归纳为两个方面:(1) 自然语言检索在选词上没有经过严格筛选,词汇繁杂。对同义词、近义词、多义词、相关词没有进行标准和统一,词间缺乏有机联系,从而影响查全率和查准率。(2) 自然语言检索本身具有模糊性、随意性,在机检过程中会占用大量存贮空间,影响查询匹配的速度。要获得满意的检索效果,必须对自然语言检索做进一步的处理,也就是进行概念控制。由于本体可以通过对概念、术语及其相互关系的标准化描述,刻画出某一领域的根本知识体系和描述语言,将检索过程由传统的关键
6、词的匹配转化为语义上的匹配,本体的引入无疑给自然语言检索技术的开展带来了新的契机。2 本体的定义本体(Ontology)最早是一个哲学的概念,原意指的是客观存在的一个系统的解释和说明,客观现实的一个抽象本质;。本体在计算机领域的定义经历了一个漫长的演化过程【3】。在人工智能界,最早给出本体定义的是Neches等人,他们将本体定义为给出构成相关领域词汇的根本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规那么的定义;。1993年,Gruber给出了本体的一个最为流行的定义,即本体是概念模型的明确的标准说明;。后来,Borst在此根底上,给出了本体的另外一种定义:本体是共享概念模型的形
7、式化标准说明;。Studer等人在对本体做了深入研究后,扩展了Gruber的定义,认为本体是共享概念模型的明确的形式化标准说明;。这一定义已被大多数人认同,该定义包含了四层含义:1) 概念模型(Conceptualization),即本体是通过抽象客观世界的概念而得到的模型,该模式定义了概念间的相关关系;2) 明确性(Explicit),即本体所使用的概念及这些概念的上位类之间都应该有明确的定义和说明,没有二义性;3) 形式化(Formal),即本体是计算机可处理的,而不是自然语言;4) 共享(Shared),即本体表达的是共同认可的知识,反映的是相关领域中公认的概念集合,应该被整个领域的群体
8、所接受。本体的目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义,利用本体概念化、形式化、明确性、共享性的特性来提高信息检索的准确性与覆盖率,从而将Web上的所有信息,连结成一个巨大的数据库。3 自然语言检索与本体结合的优势本体是关于领域知识的概念化、形式化的明确标准,是对领域知识的共同理解与描述,它和情报检索语言一样由概念及其之间的相互关系构成,所不同的是构本钱体的概念更加系统、全面地揭示概念之间的相互关系,具有更强的表达能力。因而本体更适用于网络环境下的信息资源组织与检索。其优势主要表达在:
9、(1) 本体同样也具有标引功能、信息组织功能、对信息进行集中并显示其相关性的功能,本体可以替代情报检索语言对自然语言加以更好的控制。(2) 本体比传统的情报检索语言更加深入、全面、细致地反映了概念之间的关系,同时在组织结构上,本体中的概念构成了一个语义网络,提供了一个共享的词汇库,以到达人机之间交流顺畅、且不会丧失曲解交流信息所包含的语义。(3) 本体中的概念用自然语言或半自然语言表达,应用更广。本体的描述能力可以解决同名异义及异名同义,描述概念间的相互关系,显示描述概念的语义,支持相关信息源之间的信息交换,提高应用的互操作性,促进领域知识共享和重用,可以实现基于本体的语义检索或自然语言检索。
10、(4) 本体是一个开放的体系,其概念集可以随着学科领域的开展而进行动态更新,更适用于信息频繁更新与变化的网络环境。完善概念间的语义关系,扩展语义结构,运用本体语言对概念及其关系进行形式化的表达,以便于计算机可以在某个程度上理解人类的概念与术语。4本体的构建方法本体的构建是整个基于本体的自然语言检索系统的根底,决定着自然语言检索系统的性能、通用程度以及系统运行的质量。本体描述了类、关系、函数、属性和实例之间的语义关系,如何正确、有效、合理的建立本体是这个系统建立的关键。4.1 本体构建准那么对同一领域,同一事物,不同人往往会建立不同的本体【4】。论文格式。由于本体应该是标准化的描述,因此遵循统一
11、的构造准那么是必要的。目前最为常用的是Gruber在1995年提出的5条规那么:1) 明确性和客观性:本体应该用自然语言对所定义的术语给出明确、客观的语义定义,定义应该是形式化的并尽可能完整。2) 完全性:所给出的定义是完整的,完全能表达所描述的术语的含义。3) 一致性:本体应该是一致的,也就是说,它应该支持与其定义相一致的推理。它所定义的公理以及用自然语言进行说明的文档都应该具有一致性。4) 可扩展性:本体应该为可预料到的任务提供概念根底。它应该可以支持在已有的概念根底上定义新的术语,以满足特殊的需求,而无须修改已有的概念定义。5) 最小承诺:对待建模对象给出尽可能少的约束,只要能够满足特定
12、的知识共享需求即可。论文格式。4.2 本体构建方法目前关于本体构建的方法还没有一个明确而标准的体系构建方法【5】。国外常见的几种构建本体的方法有:IDEF5法、骨架法、TOVE法、METHONTOLOGY法、KACTUS法、SENSUS法、七步法。其中IDEF5法提供了一种结构化的方法,利用该方法,领域专家可以有效地开发和维护领域本体;骨架法只提供开发本体的指导方针;TOVE法的目标是建立一套为商业和公共企业建模的集本钱体,目前利用TOVE法已经建成了相关本体;METHONTOLOGY法已经被马德里大学理工分校人工智能图书馆采用;KACTUS法用于技术系统生命周期的知识重用问题的本体开发,以便
13、于在设计、诊断、操作、维护、再设计和培训时使用同一知识库;SENSUS法是关于用自然语言开发电子领域的本体构建方法,目前该方法所构建的本体用于军事领域;七步法目前主要用于医学领域的本体构建。通过对上述本体构建方法的分析,我们可以看到,构建基于本体的信息检索系统需要遵循一系列相互关联的步骤和方法。论文格式。目前,对于自然语言检索与本体结合方面的探讨,还未见较为系统深入的研究报导,结合上述7种方法,本文提出以下4个关于建立一个应用于自然语言检索系统的本体的一般步骤以供参考。1) 确定本体的领域与范围在建立本体之初,首先要明确构建的本体将覆盖的专业领域,并搜集这一领域的概念。主要通过专家及文献的调研
14、来实现【6】。首先是由相关的领域专家给出抽象的本体结构定义;其次通过领域内的各种文本语料搜集目标文本,如各种标准、法规、辞书、教科书、科技论文、目录等;再次利用共享领域的知识来源如:术语数据库、术语汇编、叙词表、辞典、百科全书等。再由领域专家所提供的计算机专业人士通过相关的技术手段转换成为计算机能够理解的数据形式。2) 确定本体的主体概念和概念间的关系确定本体的主体概念可以在最低限度上保证概念体系建立的质量,它可以防止主要概念的遗漏,还可以揭示概念分析的重点。获取本体主体概念的方法我们可以参照叙词表,选出准确而精简的表达出领域知识的关键性概念,将它作为主体概念的主干,摒弃那些不必要或者超出领域
15、范围的概念,由上到下将概念细化。然后再进一步识别确认,对缺乏局部进行添加和修改。从而形成一个领域知识的主体概念框架结构。主体概念确定后,就要确定概念间的关系。各个概念之间存在着各种不同的关系,如属种、交叉、同一、并列、开展、推理、因果、联想关系等等,正是这些关系的存在才能把某一领域内的全部概念连成一个概念体系。因此,正确判断概念间的关系是构建合理的概念体系的前提。3) 建立本体根据上文所述,在确定了本体范围和主体概念并确定了概念关系以后我们就可以建立本体了。首先要根据实际情况设计一些指导方针;其次,利用类、关系、函数、属性、实例等本体要素组织和表示领域概念,其详细程度以满足本体的应用目的为宜;最后选择适宜的本体工具和本体语言,对上述建立的本体进行编码,使其形式化,生成领域本体。4) 检查和评估本体通过领域专家对本体进行最终的验证,包括检查概念、属性及概念之间在句法上、逻辑上和语义上的一致性,对本体、本体相关的软件环境和文档做技术性的评判。5 结束语本体的构建是一个漫长的过程,采用自然语言检索与本体结合的方法仅仅是刚刚起步。自然语言检索已经成为网络信息检索的主流技术,现在越来越多的搜索引擎支持自然语言检索。实现自然语言检索一直是图书馆人的一个理想,自然语言的核心问题在于机器对自然语言的理解,本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西北工业大学《建设工程成本规划与控制》2023-2024学年第二学期期末试卷
- 销售管理模块培训课程
- 湖南科技大学《影视话剧表演》2023-2024学年第二学期期末试卷
- 福州英华职业学院《影视经典研究》2023-2024学年第一学期期末试卷
- 2025年湖南省株洲市7校高三第一次调研测生物试题含解析
- 南昌工学院《高等数学E》2023-2024学年第一学期期末试卷
- 新乡学院《危险废物利用与处理》2023-2024学年第二学期期末试卷
- 护理查房:急性酒精中毒
- 江西财经大学现代经济管理学院《庭院绿化》2023-2024学年第二学期期末试卷
- 河南工业和信息化职业学院《商务日语口语》2023-2024学年第二学期期末试卷
- 综合与实践 白昼时长规律的探究教学设计 2024-2025学年人教版数学七年级下册
- 2025年重庆市开州区云枫教育集团中考一模化学试题(含答案)
- 第9课《桃花源记》教学设计-2024-2025学年统编版语文八年级下册
- 世界史话题聚焦-智慧讲坛新视野+导学案-2025届统编版高三历史二轮复习
- 2025年绍兴职业技术学院单招职业适应性测试题库附答案
- 福建省龙岩市2025届高三下学期3月一模试题 化学 含答案
- 2025年第六届全国国家版图知识竞赛题库及答案
- 广东省广州市白云区2024-2025学年高三下学期2月统测英语试卷【含答案解析】
- 2023-2024学年广东省广州市天河区八校联考七年级(下)期中数学试卷(含答案)
- 2025年第六届全国国家版图网络知识竞赛题库及答案(中小学组)
- 江西九江茅山头企业管理有限公司2024年纪检专干招聘笔试参考题库附带答案详解
评论
0/150
提交评论