




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、78基金项目Vol .52,No .4,April ,2008LIBRARYANDINFORMATIONSERVICE钱智勇南通大学图书馆南通226016摘要以基于本体的张謇研究知识库智能检索系统开发为例,探讨基于本体的专题领域知识库智能检索系统的框架结构、工作流程以及功能实现。系统采用语义Web 技术和智能Agent 技术,使用RDF 模型对知识库的Web 页面元数据进行描述,然后利用本体建模语言对张謇研究领域知识进行建模,根据所得到的本体对元数据进行基于语义的查询,为用户提供智能检索服务。关键词本体知识检索智能检索知识库分类号G250.6ResearchonIntelligentRetri
2、evalSystemofOntology-basedKnowledgeDatabaseTaking Zhang Jians Research on the Realization of knowledge Database Retrieval System as an ExampleQianZhiyongThe library of the Nantong University, Nantong 226016AbstractThispaperdiscussestheframework,workflowandfunctionrealizationofontology-basedintellige
3、ntknowledgeretrievalsysteminthethematicareabasedonthedevelopmentexampleofZhangJians Researchofontology-basedKnowledgedatabaseretrievalsystem.Adopting semanticWebandintelligentagenttechnologies,thesystemdescribeswebpagemetadataofknowledgedatabasewithRDFmodel,modelsthe knowledgeoftheZhangJians Researc
4、hthematicareainontologymodelinglanguage,andthenoffersintelligentretrievalservicestoinquirethe semanticmetadatabasedontheontology.Keywordsontologyknowledgeretrievalintelligentretrievalknowledgedatabase基于本体的专题知识库智能检索系统研究*以张謇研究知识库检索系统实现为例*本文系江苏省教育厅社科基金资助项目“张謇研究本体知识库组织与实现”(项目编号:05SJB870003研究成果之一。收稿日期:20
5、07-08-27修回日期:2007-10-18本文起止页码:78-80,141本文责任编辑:郭屹1引言从本体论的基本概念出发,哲学上把本体论定义为”对世界上客观事物所进行的系统描述”。将本体论引入信息科学,本体论是对概念化对象的一种表示和描述,在计算机领域是指定义元数据及其相关关系的“规范”1。由于本体具有良好的概念层次结构和逻辑推理的支持,因而在信息检索,特别是在基于知识的检索中得到了广泛的应用。知识检索也称语义检索,是把信息检索与人工智能技术、自然语言技术相结合的检索,它从语义理解的角度分析信息对象与检索者的检索请求,是一种基于概念及其相关关系的检索匹配机制2。知识库是事实、规则和概念的集
6、合,从存储知识的角度来看,以描述型方法来存储和管理知识的机构叫做知识库。张謇是中国近代著名实业家、教育家,他是清末最后一位状元,曾任民国政府实业总长,是一位探索强国之路的开路先锋。他倡导实业救国的思想,在经济、教育、文化、城市建设、社会保障、地方自治等诸多领域创造了十多项全国第一,他创建了中国近代第一城南通(中国人自主规划建设的第一座近代城市,研究张謇对于今天的城市经济、教育、文化协调发展,实现科学可持续发展具有重要意义。张謇研究知识库对张謇研究知识沉淀(包括南通大学档案馆、图书馆和博物馆的张謇研究原始资料进行数字化语义处理并在张謇研究领域专家的指导下进行概念分类标注,组织到知识库中,形成张謇
7、研究领域概念集,组织存储并实现Web 服务功能3。2基于本体论的张謇研究领域知识库智能检索系统功能需求实现对世界各地张謇研究领域用户的查询请求分析本地表达化,使得要查询的概念不存在模糊不清的地方,具体表现在用户向系统提出查询请求后,系统能将查询请求中基金项目图书情报工作第52卷第4期2008年4月的本体取出来,然后进行基于本体的语义搜索。系统应能对用户如何更好地利用已建成的张謇研究本体知识库中的知识给予搜索提示,帮助用户更好地使用本体进行查询。系统应能找出查询本体中隐含的语义,实现智能检索,即系统能根据用户的检索条件,进行智能语义推理,可检索出与检索条件具有相同语义信息的知识。3基于本体论的领
8、域知识库智能检索系统结构和工作流程3.1基于本体论的领域知识库智能检索系统结构基于知识库的语义Web环境下,知识库的信息资源已进行了语义标注。在此环境下,本系统应完成的任务是:自动抽取关于领域知识内容描述的元数据,并将这些元数据进行存储;对用户提交的关键词进行语义匹配和语义相关性扩展,形成符合特定Ontology语言的查询语句;通过对数据库中存储的领域知识库元数据信息的查询,得到高效的基于语义的领域知识检索结果。上述任务可划分为元数据收集、数据预处理、元数据存储、基于Ontology的知识推理和用户查询、控制调度等6个主要功能。本文将整个系统框架划分为6个部分,每个部分的功能由一类Agent实
9、现,这6类Agent通过协同工作,共同完成整个检索任务。本系统的总体结构如图1所示4:领域知识内容的元数据(包括知识库存储的描述内容信息和带描述信息的页面WEB信息进行信息提取和过滤,把收集到的元数据经过预处理Agent进行处理后交由存储Agent;存储Agent接收语义元数据,将这些元数据以合适的方式存储到数据库中,数据库既可以是传统的关系数据库,也可以是专用的X M L/R D F数据库;利用描述领域知识的领域本体,由推理Agent对张謇研究用户提交的查询关键词进行语义匹配和语义相关性扩展,将得到的基于张謇研究领域本体的查询要求交由查询Agent执行;由查询Agent接受推理Agent产生
10、的针对Ontology的查询要求,对存储元数据的数据库采用基于知识的方式进行查询,并将满足用户条件的结果返回给用户5。领域用户的查询过程如下:提交检索请求。界面Agent接收用户提交的检索请求,主动细化检索请求,并把细化后的结果交给预处理Agent。规范化检索信息。预处理Agent接收到检索请求任务后,首先利用任务中关注领域、关键词、摘要等信息,到所有用户共有的知识库中查找利用相同领域,类似关键词作为搜索条件的搜索案例。若在知识库中没有检索到所需案例,预处理Agent提交本体库,借助于本体知识,从中找出出现该关键字的各个领域以及在该领域下的关键字的含义。预处理Agent把搜索到的或者是经过本体
11、规范的信息提交给查询界面,界面与用户交互,把用户根据自己意图选择的信息再次反馈给预处理Agent,预处理Agent再把信息提交给查询Agent。为了保持系统的一致性与协调性,实现对知识库的智能管理、控制和调度,控制调度Agent作为智能检索系统的“司令部”,将在系统中起核心作用。控制调度Agent的工作过程是:保存各Agent的名称、通信地址、能力等状态信息;接受检索任务,在多Agent之间进行任务分配;协调整个系统的通信;接收检索结果,将其反馈给预处理Agent;定期派遣信息收集Agent到远端信息源上收集信息,更新本地信息库和远端信息在本地的索引库。3.3基于本体论的领域知识库智能检索系统
12、功能实现系统采用了语义Web技术和智能Agent技术,使用RDF 模型对知识库的Web页面元数据进行描述,然后利用Ontol-ogy建模语言对领域知识进行建模,根据所得到的Ontology对元数据进行基于语义的查询,为用户提供智能化的检索服务。系统中除了多个Agent以外,还设置了领域知识库、领域本体库、本地信息库、远端信息在本地索引库以及临时文档库来存储相关信息。领域知识库除了存储张謇研究数字化语义Web资源还存储张謇研究领域用户ID、mail等个人信息、搜索案例(用户ID、搜索ID、属于的领域、关键字、返回的数据等、用户偏好等;领域本体库存储张謇研究领域集、张謇研究关键字集以及张謇研究本体
13、的相关知识等;本地信息库和远端信息在本地的索引库主要存储远端搜索Agent带回的,并经过信息处理Agent处理过的搜索信息;临时文档库存储远端搜索Agent从远端数据源搜索到的相关信息。3.2基于本体论的领域知识库智能检索系统工作流程通过信息搜索Agent,对张謇研究知识库中描述张謇研究图1张謇研究领域知识库智能检索系统框架体系结构7980基金项目Vol .52,No .4,April ,2008LIBRARYANDINFORMATIONSERVICE文件的链接,以供软件Agent或应用程序读取。信息收集Agent 按照设定的搜索策略访问知识库以及语义万维网环境下的网页,它不仅可以自动过滤知识
14、库网页内容,采取某种策略来提取其中的元数据描述信息,还可以从一个知识库页面跨越到另一个页面,自动沿着超文本的链接,遵循超文本传输协议(HTTP在知识库页面上进行“爬行”,确认知识库页面之间的链接是否有效,删除已经名存实亡的链接。RDF数据库;关系数据库。对于少量的数据,XML/RDF文件形式的存储是可行的,但是对于大量的事实数据,考虑到可扩展性、查询方式、效率等诸多因素,以RDF 数据库或者关系数据库来存储RDF 事实数据是一种比较好的选择。关系数据库是目前数据库应用的主流,用关系数据库存储RDF 数据,可以有效地利用现有的数据库资源。但是由于关系数据库缺乏所必须的语义要求,所以必须首先把RD
15、F的数据模型转化为关系模型,这就要求能够对RDF 数据进行解析,根据RDF 模型的特点设计专门的数据库模式,实现从RDF模型到数据库模式的映射。在RDF模型中,声明是对一个事实的基本描述,也是RDF 模型中的最小有效数据单元,所以存储声明的表是数据库模式中最重要的部分,其结构如表1所示:要有被检索信息的元数据信息,也要具有对被检索内容的智能推理能力。系统中推理Agent 的核心是智能推理引擎,它能够根据已有的特定领域的本体对用户所输入的关键词进行基于语义的智能推理。推理包括语义匹配和语义相关性扩展,推理引擎应能够根据领域本体中对各个概念的定义而推理出这个关键词在查询中的精确语义,并推理出与此词
16、语义相关的词语和概念。推理Agent 通过调用Jena 中的OntologyAPI,根据Ontology 对用户输入的关键词进行基于语义的推理。推理分为两种:关键词的语义匹配和相关性扩展。语义匹配的作用是对用户所输入的关键词进行语义的分析,推理Agent根据Ontology 可以判断此关键词的精确语义,从多个可能的语义选项中选择出最符合用户要求的那一种7。针对具有一词多义的词条,语义匹配提高了检索结果的精确性。传统的收集引擎只是根据单纯的关键词匹配来检索结果,并不能区分同一词条的不同含义,而在本文所提出的检索框架中,Ontology 对同一个词的几个不同语义都进行了精确的定义,每一个语义都对应
17、于一个独一无二的URI,因此如果推理Agent 参考了Ontology,就可以根据上下文来选择出符合用户要求的语义。相关性扩展的作用在于获得与该词相关的其他词,因为在Ontology 中定义了众多的与此词条相关的其它概念,所以根据Ontology 中所定义的知识,还可以获取更多的与此关键词语义关联的词,例如,通过subclass 关系,推理Agent就能够找到该概念的一个子概念,尽管该子概念不在关键词列表中,推理Agent 根据Ontology也会把它找到并返回给用户。推理Agent最后会将语义匹配和相关性扩展所得到的结果封装起来ACLMessage对象的形式交给查询Agent,由查询Agen
18、t根据这些推理结果对存储有描述知识库Web 数据内容的RDF 数据库进行查询。表1存储三元组的RDFSatemens由于RDF是一种以XML语法为基础的建模语言,所以从某种意义上可以说RDF数据是一种特殊的XML数据。实际上,XML文档可以分成两大类:以数据为中心或者以文档为中心。以数据为中心的文档有非常规则的结构,以文档为中心的文档具有不规则的结构,而且数据颗粒度也比较大。根据RDF数据模型的特点,RDF数据可以看作以数据为中心的XML文档。基于RDF数据模型的特点,对于RDF数据的存储最好由中间件(middleware来实现。中间件所需完成的XML 文档与数据库之间的转换功能是通过文档与数
19、据库之间的映射来实现的,实现过程共分为3步:编写一个映射文件、编写过滤器和动作文件、编写Java代码。(下转第141页Colummname Type Comments Subject I d -r e f -Predicate I d -r e f -Object I d -r e f -Object_isliteralSmalllintFlagswhether“ob-ject”isinliteralor resourcet ableModel I d -r e f -i s r e i f i e dsmllintFlagswhetherthis statementisreified141评
20、论论坛图书情报工作第52卷第4期2008年4月作者简介刘景宇,女,1978年生,助理馆员,发表论文13篇。更丰富、更生动、更有趣,更新更迅速,通过网络阅读更便捷等特点,更容易吸引读者,久而久之,许多人逐渐将它当作了自己专业知识和信息的唯一来源,忽视了那些未在图书馆学个人博客中出现的信息、知识和研究领域。笔者将这种每天将大量时间和精力花费在阅读博客上,将博客作为自己知识和信息的主要固定来源的现象称为“博客依赖”。这种“博客依赖”现象在自我约束意识和自我控制能力相对较弱的广大图书馆学本科生和研究生当中更容易产生。博客作为一种内容和表达都非常具有个性化色彩的网络交流方式,包含的知识和信息往往是零散的
21、、非正式的、不成熟的。对图书馆学这门学科进行全面了解和深入研究,必须花费大量时间对理论著作和学术论文进行系统全面地阅读和研究。这种“博客依赖”现象容易造成博客关注者没有坚实的图书馆学理论知识基础,对图书馆学的学习、思考和研究往往受到图书馆学个人博客信息热点的影响和牵制,容易导致自己的学术研究不全面不系统不深入,最终可能影响图书馆学的整体研究水平和学科体系,对学科的深入发展产生不利影响。4结语综上所述,我国内地图书馆学个人博客对图书馆学的影响有积极的,也有消极的。从总体上看,积极影响是占主要地位的。我们应该认清积极和消极两方面的各种影响,对积极的要努力弘扬,对消极影响也可以采用一些相应措施来进行
22、克服、消除或淡化。总的来说,我国内地图书馆学个人博客已经成为图书馆学进行学术交流、促进学科发展的一个有利平台,如果我们发挥好它的作用,将为图书馆学发展带来新的生机与活力,成为我国图书馆学发展的又一次良机。参考文献:25,38.30-31.80-84.6何江.Blog与高校本科教学相整合的设计与实践学位论文.长春:东北师范大学,2006:19-21.7王敬稳,陈春英,曹彩英,等.“博客”现象及其对图书馆的启示.情报杂志,2003(4:90-91.8老槐.博客中的精美图书馆照片.2006-12-27.http:/oldhuai.5284580.html.参考文献:1付燕宁,金龙飞,王开锋,等.基于本体的信息检索系统的设计与实现.计算机应用研究,2006(11:155-157.2聂卉,龙朝晖.语义推理技术在智能检索系统中的应用研究.情报学报,2006(5:356-360.3钱智勇.基于本体的专题域知识库系统设计与实现以张謇研究专题知识库系统实现为例.情报理论与实践,2006(4:476-479.4王平,朱艳辉,周咏梅.多Agent 中文Web 信息自动检索系统研究.计算机工程与应用,2006(S1:88-91.5WilliamsAB.Theroleofmultiagentlearninginontology-basedknowledgemanagement.AAA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 检验知识:微生物检验技师试题及答案
- 项目管理考试策略与技巧的融合试题及答案
- 石油勘探开发的技术创新与应用考核试卷
- 2025年注会考试模拟试题及答案
- 纤维加工过程中的清洁生产策略考核试卷
- 站内安全防护系统升级与智能化技术应用考核试卷
- 财务会计原理试题及答案
- 煤气化过程中的合成气净化设备运行考核试卷
- 2025年G2电站锅炉司炉模拟考试题及答案
- 港口物流信息技术创新考核试卷
- 统借统还合同协议
- 2025年上半年中国十五冶金建设集团限公司公开招聘中高端人才易考易错模拟试题(共500题)试卷后附参考答案
- 养老院护理九防内容课件
- XX镇卫生院综治信访维稳工作方案
- 2023年河南单招语文模拟试题
- GB/T 24894-2025动植物油脂甘三酯分子2-位脂肪酸组分的测定
- 2024南宁青秀区中小学教师招聘考试试题及答案
- 《道路运输企业和城市客运企业安全生产重大事故隐患判定标准(试行)》知识培训
- 解读《学前教育法》制定全文课件
- 2025年公路工程预制箱梁运输安装合同
- DB31∕T 1243-2020 互花米草生态控制技术规范
评论
0/150
提交评论