下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、本体理念的信息检索方案查询与应用初探摘 要:信息检索是指根据用户的需求,从已有的检索工具或数据库中查找所需信息的过程。本体作为一种客观描绘,有着良好的概念层次构造,可以利用公理对概念及概念间关系进展推理,从而明确各种关系,建立知识间的概念模型。本体理念的信息检索可对信息源进展语义标引,进步查全率和查准率,帮助用户准确的找到真正需要的信息。本文将从本体的根本概念出发,对本体理念在信息检索中的应用进展初步探析,建立基于本体的信息检索系统,进步信息检索效率。关键词:本体;信息检索;信息检索系统中图分类号:TP393.08随着计算机技术和网络技术的不断进步和开展,互联网进入了人们生活的各个领域,检索方
2、式也由原来的脱机检索、联机检索开展为今天的网络检索。然而,网络检索给人们带来方便的同时,也给信息检索带来了费事。信息检索是指根据用户的需求,从已有的检索工具或数据库中查找所需信息的过程,如何快速、准确地检索到用户所需要的信息是信息检索面临的问题。因此,进步检索效率,进步查全率、查准率,讨论新的检索形式是信息检索开展的必然趋势。本体理念有着良好的概念层次构造,是近几年学术研究的热点,它的应用和推广必然推动信息检索的开展。1 本体的根本概念本体作为一种信息表达形式,有着良好的概念层次构造,具有较强的表达才能。本体对逻辑推理的支持可以更好地表达概念之间的关系,使得信息具有一定的层次构造。1.1 本体
3、的概念。本体是指对客观存在物体的一种系统地描绘,它并不是详细指某个人描绘该事物使用的详细语言,而是将计算机的表达方式和人类的表达方式统一。Gruber认为:本体就是指给出构成相关领域词汇的根本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规那么。Borst Pim那么认为:本体是概念模型的标准说明。Studer认为:本体是指共享概念模型的形式化标准说明。第一,概念模型。所谓概念模型,是将客观世界中一些现象抽象为形同概念而得到得到的,独立于详细的环境。第二,形式化。指本体是计算机可读的。第三,共享。共享指本体是针对团体所达成的共同认可的知识。1.3 本体的分类。本体按照其研究范围的分
4、类标准进展分类,可以分为通用本体和领域本体。通用本体是指研究通用的概念、通用属性,如空间、时间等等,并不局限在特定的领域。构建通用本体的过程与构造词典相似,目前常用的通用本体有Wordnet 和 Hownet。领域本体是指描绘详细领域知识的概念和属性,描绘某个领域的知识。目前,领域本体比较匮乏,相对成熟的是生物学本体、医学本体。领域本体库的构建需要领域专家的参与,并且要与共同到达的学术一致。1.4 本体的构建方法。根据目前认可度较高的Gruber提出的本体构建规那么,学界提出了多种构建方法。认可度最高的是斯坦福大学医院开发的七步法:确定专业领域范围;考察现有本体寻找复用时机;列出该领域的术语;
5、对该领域事务进展分类;定义类的属性、类与类之间的关系;定义属性的分娩;创立属于该类的实例。1.5 本体描绘语言。本体描绘语言随着网络开展而开展,并且具备多种功能使得本体在不同系统之间互操作。本体描绘语言需要提供机器可读的形式,可以实现自然语言与机器表达形式的转化。目前,常用的本体描绘语言主要有RDF、OWL,本文介绍RDF模型,以下是对这种语言的详细介绍。RDF包括3种实体:资源和实体、属性、声明。资源和实体是对资源进展标识;属性是对资源的各个方面进展定义,如特征等;声明是指对已经被命名的属性且被赋值的特定资源,即RDF声明。RDF模型的描绘方式通常有以下几种方式:简化三元组方式,用尖括号将三
6、元组的主语、位于、宾语隔离;RDF模型图方式,是以图形的方式将三元组描绘的声明表现出来,资源、字符串节点、属性分别用椭圆、方框、连线来表示;RDF/XML方式,这种表达方式是按照RDF/XML语法和编码规那么描绘RDF模型,并将这种模型存放在计算机中。2 基于本体的信息检索系统随着互联网技术的开展,传统的信息检索已无法满足人们的需求。传统的信息检索主要采用构造化信息表示方式,要求有较高的查准率。但是,传统的信息检索存在一定局限性,如文档的添加较为复杂,增加了工作人员的工作量;构造化信息表达形式限制了用户的输入,只能输入与数据库一致的信息才能得到检索结果,而非构造化信息表达形式在一定程度上放宽了
7、用户的输入限制,采用关键字匹配的方式,但是不能满足语义检索的要求,因此,不能进步查全率,出现漏检的情况。基于本体的信息检索系统可以主动理解用户要求,通过逻辑推理后进展检索。同时,本体理念的信息检索系统可以将计算机的表达方式与人类的表达方式统一,实现计算机与人类的同语言交流。基于本体的信息检索包含以下几个模块:文档预处理操作、构建索引、扩展合并用户查询词、构造检索模型、排序算法。文档预处理操作是指利用分词技术将大段文字分割成词语,经过词法分析后,删除没有语义的词汇,减少文档的冗余。利用倒排文档可将索引与原文档相连,检索词作为索引大大进步了检索效率。用户输入检索词后,系统需要通过一定的预处理、或者
8、是通过查询处理算法,扩展合并查询词,推理用户的检索需求,从而进步查准率。构造检索模型可以迅速匹配用户查询的相关信息,进步检索效率。排序算法是指利用某种算法将与检索词相关性最强的检索结果放在前面,让用户先看到想要的结果。为了进步检索的查全率、查准率,基于本体的信息检索系统还可以提供多类型的检索形式,本体检索作为根底检索,关系检索和属性检索为用户提供高级检索,为用户提供知识间的联络,假设用户需要个性化效劳,还可以提供回溯检索。本体理念的信息检索系统可以将关键词进展概念匹配,用户在不具备专业检索技能的情况下,也能迅速并准确的检索到所需要的的信息,给用户带来全新的极富人性化的体验。3 完毕语基于本体的信息检索需要构建本体领域知识库,以本体的相关理论为根底。由于理论的复杂性和技术难关等原因,目前国内外还没有对本体信息检索系统进展大规模应用。本体知识库虽然在技术上较为先进,但是就目前的开展程度来看,本体信息检索只能停留在研究的初期,还有许多技术难关要攻克。如何构建本体知识库、充分利用本体表示形式带来的优势仍有待进一步研究,使用本体直接进展匹配,将文档进展本体化,实现文档的自动标引,提供以自然语言为主的概念检索和关系检索形式,提供更人性化的效劳。总之,基于本体的信息检索,可以同时进步查全率和查准率,进步检索效率。本文的观点仍有不成熟之处,希望诸位同仁对本体信息检索系统形
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《我的母亲》课文教案(共1)
- 2024年安装水电项目合同范本
- 岗位职责认知培训
- 房屋尽快出租协议书范文模板
- 人教版英语八年级下册 Unit 3 单元基础练习
- 端午节活动主题教育
- 2021暑假前家长会班主任总结发言稿
- 安保班组日常工作
- 新入职员工安全培训试题及完整答案(有一套)
- 厂级员工安全培训试题及答案历年考题
- 医院疏散逃生讲解
- 【短视频平台商品营销策略探究:以抖音为例8800字(论文)】
- 2024年保险考试-车险查勘定损员笔试参考题库含答案
- 国企市场化转型方案
- 2024年新高考语文复习题型四 类文本阅读(全国适用)解析版
- 中耳胆脂瘤查房
- 医疗质控中心申报材料
- 垃圾清运服务应急处置方案
- 卡西尼卵形线在高考中应用
- (高清版)TDT 1068-2022 国土空间生态保护修复工程实施方案编制规程
- 波斯教圣女制度
评论
0/150
提交评论