基于本体的自然语言检索研究_第1页
基于本体的自然语言检索研究_第2页
基于本体的自然语言检索研究_第3页
基于本体的自然语言检索研究_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于本体的自然语言检索研究论文导读:而自然语言检索具有方便、快捷、易于操作的特点,成为信息检索领域一大发展趋势。从2001年开始,一些专家、学者开始把本体理论应用到自然语言检索领域。目前关于本体构建的方法还没有一个明确而标准的体系构建方法5。关键词:自然语言检索,本体,本体构建随着计算机、网络与信息技术的迅猛发展,信息的产生、发布速度日新月异,使得现在的Internet和Web上具有海量的信息资源。而随着计算机和网络的普及,人们的信息意识也在不断增强。各行各业的人们都深刻意识到信息的重要性,对信息的需求也越来越迫切,信息用户群从原来的只有少数专业人员范围发展到了全民范围。面对庞大的网络信息资源

2、如何进行有效地组织,并提供快捷、方便的检索服务,已经成为信息检索领域亟待解决的问题。常规的全文检索方式虽然可以保证查全率,但是查准率却大大降低,而基于数据库的检索方法,其性能取决于所使用的字段标识方法和用户对方法的理解,对于大多数没有经过检索培训的用户来讲,操作起来费时费力,具有很大的局限性,也不能满足用户在语义上和知识上的需求。而自然语言检索具有方便、快捷、易于操作的特点,成为信息检索领域一大发展趋势。现在自然语言检索系统可望扫除人与计算机系统的接口障碍,只是对自然语言如何进行分解取得准确的语义问题还有待更深入地研究1。从2001年开始,一些专家、学者开始把本体理论应用到自然语言检索领域。本

3、体具有能通过概念之间的关系来表达概念语义的能力,因而在信息检索,特别是在基于知识的检索中支持知识上、语义上的匹配,对检索系统的查全率与查准率有更好的保障。本体的最大优势还在于本体将某个或多个特定领域的概念和术语规范化,提供了人机交流的机制,使得机器可以理解语义,达成机器与机器之间、机器与人之间的语义互操作。要实现对Web上的知识信息的重用与共享,充分挖掘语义Web的潜力,就需要大规模采用基于本体的方法来组织信息资源。本文首先介绍了自然语言检索的优缺点及本体的概念,然后论述了自然语言检索与本体论结合的优势,最后提出了开发本体的方法。1 自然语言检索的优缺点1.1 自然语言检索的优点使用自然语言检

4、索不受繁琐的检索规则限制,检索标识从源文的题名、文摘和正文中提取,符合大多数用户的检索习惯,用户使用自然语言描述他们的信息需求,用能准确反映自己意图的词语作为检索标识2。自然语言检索的优点可归纳为三个方面:(1) 自然语言检索不受词表限制,可以输入新生词汇,更有效地跟踪新事物的发展。(2) 自然语言检索以源文的内容作为检索标识,符合大多数用户的检索习惯,不受专业及使用检索系统能力的限制,能更快、更准确地命中检索目标。(3) 自然语言检索采用从文献中抽取标引词的方式,既加快了标引速度,又减少了文献内容的失真度,可以实现各数据库的标引和检索成果共享。1.2 自然语言检索的缺点自然语言检索在情报检索

5、语言中毋庸置疑是最为方便的一种检索语言,但是它还是存在很多问题,正是这些问题的存在使它不能完全取代情报检索语言。自然语言检索的缺点可归纳为两个方面:(1) 自然语言检索在选词上没有经过严格筛选,词汇繁杂。对同义词、近义词、多义词、相关词没有进行规范和统一,词间缺乏有机联系,从而影响查全率和查准率。(2) 自然语言检索本身具有模糊性、随意性,在机检过程中会占用大量存贮空间,影响查询匹配的速度。要获得满意的检索效果,必须对自然语言检索做进一步的处理,也就是进行概念控制。由于本体可以通过对概念、术语及其相互关系的规范化描述,刻画出某一领域的基本知识体系和描述语言,将检索过程由传统的关键词的匹配转化为

6、语义上的匹配,本体的引入无疑给自然语言检索技术的发展带来了新的契机。2 本体的定义本体(Ontology)最早是一个哲学的概念,原意指的是“客观存在的一个系统的解释和说明,客观现实的一个抽象本质”。本体在计算机领域的定义经历了一个漫长的演化过程3。在人工智能界,最早给出本体定义的是Neches等人,他们将本体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。1993年,Gruber给出了本体的一个最为流行的定义,即“本体是概念模型的明确的规范说明”。后来,Borst在此基础上,给出了本体的另外一种定义:“本体是共享概念模型的形式化规范说明

7、”。Studer等人在对本体做了深入研究后,扩展了Gruber的定义,认为“本体是共享概念模型的明确的形式化规范说明”。这一定义已被大多数人认同,该定义包含了四层含义:1) 概念模型(Conceptualization),即本体是通过抽象客观世界的概念而得到的模型,该模式定义了概念间的相关关系;2) 明确性(Explicit),即本体所使用的概念及这些概念的上位类之间都应该有明确的定义和说明,没有二义性;3) 形式化(Formal),即本体是计算机可处理的,而不是自然语言;4) 共享(Shared),即本体体现的是共同认可的知识,反映的是相关领域中公认的概念集合,应该被整个领域的群体所接受。本体的目标是捕获相关的领域的知识,提供对该领域知识的共同理解

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论