(计算机软件与理论专业论文)基于主题图(topic+map)的信息资源管理系统研究.pdf_第1页
(计算机软件与理论专业论文)基于主题图(topic+map)的信息资源管理系统研究.pdf_第2页
(计算机软件与理论专业论文)基于主题图(topic+map)的信息资源管理系统研究.pdf_第3页
(计算机软件与理论专业论文)基于主题图(topic+map)的信息资源管理系统研究.pdf_第4页
(计算机软件与理论专业论文)基于主题图(topic+map)的信息资源管理系统研究.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 绩惠技术帮戮特掰静飞速鬏滠,带来了垒球信惠资滚不可遂转酌瓣终纯发震 趋势。面对信息的海洋,大量的冗余信息、过裁信息使得人们难以准确地定位他 所需求的信息资源。如何组织、繁理和维护海爨信息并为娜户提供有效的服务也 裁成为一顼重要褥滚甥酌磺究谦怒。本交圭螫在信惑警理系统鳃疆下凡令方覆开 展研究: 1 ,梅建一个鏊予主题图的绥息资源管避系统( t m i m :t o p i c m a pb a s e d i n f o r m a t i o nr e s o u r c em a n a g e m e n ts y s t e m ) :葵现基于主题黼本体的信息资源分 类组织和元数据描述,实现基于概念匹配的谮义检索和基于规则的推理检索, 提供患予信息资源瓣元数据描述与其体电子痿怠炎源的w w w 链接,提供售息 资源管理系统的信息更新、维护和安全控制等。 2 构建领域本体;参照本体论思想对信息资源领域建模,给出本体开发的 步骤,梅建主题图零体,孛每建慧予直接关联美系浆接理援剡,劳实现售惑资源 的d u b l i nc o r e 元数据描述。 3 提出基于概念匹配的语义检索的算法:提出了语义检索的结构图,给出 语义慧涵检索帮语义联怒检索瓣舆薅冀法,势在语义检索黪罄毯上实凌褥次检 索。 4 ,基于规则的报理检索实现:利用主题圈瓷询语言t o l o g 的内在推理机制, 实璎筑慰检索,获褥系统蹙含戆煞识,蒡将稔索结暴戳簿澎缝兹豹形式麓凌绘 用户,帮助用户获得最佳的检索结果。 5 提出一种计簿概念相似度算法:基于主题图提供的概念空间,进行了概 念稷戳发诗算,囊溺户蓰供一寇貔参考售惑,蜜瑗该蠛资滚戆缮篷l 基务。 6 解决检索中出现的同义辩形和同形异义词问题,尽w 能地减少关键词匹 配检索中的漏检和歧义的发生。 关蕤谣:信意资源繁疆,本钵,t o p i cm a p ,元数据,语义狻索,援裁缎索 塑塑一 a b s t r a c t t h ef a s td e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g ya n di n t e r n e tb r i n g a b o u tt h ei r r e v e r s i b l ed e v e l o p m e n tt r e n do ft h ei n f o r m a t i o nr e s o u r c e s i nt h e r l d ,al o to fr e d u n d a n ti n f o r m a t i o nm a k e si td i f f i c u l tf o rt h e u s e r st of i n d t h ei n f o r m a t i o nr e s o u r c e st h e yn e e d h o wt o s t r u c t u r e , m a n a g ea n dm a i n t a i np l e n t yo f i n f o r m a t i o na n dt op r o v i d ee f f e c t i v e s e r v i c ef 。rt h eu s e r sb e c o m e sa ni m p o r t a n ta n di m p e r i o u st a s ko fr e s e a r c h 。 s o 孺or e s e a r c h e sa b o u ti n f o r m a t i o nm a n a g e m e n ts y s t e ma r ec a r r i e do u ta s f o l l o w s : 1 。t h et o p i c m a pb a s e di n f o r m a t i o nr e s o u r c em a n a g e m e n ts y s t e m i s c o n s t r u c t e d t h ec l a s s i f i c a t i o no fd o m a i ni n f o r m a t i o na n dm e t a d a t a d e s c r i p t i o na r er e a l i z e d ,c o n c e p t - m a t c h e ds e m a n t i cr e t r i e v a l a n d r u l e b a s e dr e t r i e v a la r ei m p l e m e n t e d ,t h el i n ki so f f e r e dt ot h e 孵 i n f o r m a t i o nb yh y p e r l i n kt h r o u g hm e t a d a t ad e s c r i p t i o no fe l e c t r o n i c i n f o r m a t i o nr e s o u r c e ,t h er e n e w a l ,m a i n t e n a n c ea n ds e c u r i t yo f i n f o r m a t i o nm a n a g e m e n ts y s t e ma r eo f f e r e dt o o 2 c o n s t r u c td o m a i no n t o l o g i e s :a c c o r d i n gt oo n t o l o g y ,t h em o d e lo f i n f o r m a t i o nr e s o u r c ed o m a i ni sc o n s t r u c t e d ,t h es t e p so fc o n s t r u c t i n g o n t o t o g i e sa r eo f f e r e d i nd e t a i la n dt h et o p i cm a po n t o l o g i e sa r e b u i i t ,t h er u l e sa r eb u i l ta tt h eb a s i so fd i r e c t e dr e l a t i o n s h i p s - 3 。t h ea l g o r i t h mo fc o n c e p t b a s e ds e m a n t i cr e t r i e v a li sp r e s e n t e d , i n c l u d i n gt h es t r u c t u r eo fs e m a n t i cr e t r i e v a l ,s e m a n t i ci m p l i c a t i o n r e t r i e v a l s e m a n t i ca s s o c i a t i o nr e t r i e v a la n ds oo n 4 r u l e b a s e dr e a s o n i n gr e t r i e v a li si m p l e m e n t e d u s i n gt h ei n h e r e n t r e a s o n i n gm e c h a n i s mo ft h et o l o gq u e r yl a n g u a g e ,i m p l e m e n t t h er u l e r e t r i e v a la n dp r e s e n tt h er e t r i e v a lr e s u l ti nt r e e 一1 i k es t r u c t u r et ot h e u s e r s ,t oh e l pt h e mg e tb e s tr e t r i e v a lr e s u l t , 5 ,ac o n c e p ts i m i l a r i t ya l g o r i t h mi sp r e s e n t e d b a s e do nt h ec o n c e p t s p a c ep r o v i d e db yt o p i cm a p ,w ea n a l y z et h ec o n c e p ts i m i l a r i t y ,w h i c h u a b s t t a c t p r o v i d es o m er e f e r e n c ei n f o r m a t i o nf o rt h eu s e r sa n di m p l e m e n td o m a i n r e s o u r c ei n c r e m e n ts e r v i c e 6 t h es y n o n y m ya n dh o m o g r a p hp r o b l e ma p p e a r i n gi nr e t r i e v a la r e r e s o l v e d ,t r y i n gh a r dt oi m p r o v et h ee f f e c to fr e t r i e v a l s k e y w o r d s :i n f o r m a t i o n r e s o u r c em a n a g e m e n t ,o n t o l o g y ,t o p i cm a p , m e t a d a t a ,s e m a n t i cr e t r i e v a l ,r u l er e t r i e v a l i i i 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻 读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并 淘藩家有关部f l 藏机构送交论文的复露件和电子舨。本人允许论文被 查阅和借阅。学校可以将本学位论文的众部或部分内容编入有关数据 库进行检索,霹以采用影馨、缩露或懿搂等复制手段保存秘汇编本学 位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文 章椽注明作者单位为西北大学。 保密论文待解密爱适蔫本声臻。n 学位论文作者签名:熬盥互指导教师签名:乏幺: 埘鑫:# 6 , 9 ,$ 隧挣f 年,箕1 护嚣 西戈大攀学位论文猿刨性声瞬 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工 作及取褥的磅究藏采。据我掰知,除了文孛特裂翔戳标注和致潦的地 方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含 为获褥嚣= 匕大学或其它教育机构的学使或证书两搜耀过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。 学使论文作者签名:露缳盂 弘、y 年口月p 日 第1 章绪论 1 1 研究背景 1 1 1 信息资源的定义 第1 章绪论 关于信息资源的定义很多,美国信息资源管理专家h o r t o n 和m a r c h a n d 认 为信息资源对于整个社会来说,包括四大部分:具有与信息相关技能的人才; 信息技术及其硬件与软件;信息机构,如图书馆、计算机中心、通信中心和信 息中一t l , ;信息操作与处理人员【l j 。本文中的信息资源指“可以通过网络被检索 到的、用字节序列表示的资源”i2 1 。信息管理是以资源的有序化和结构化为目 的,将各种信息以一定的方式进行采集、汇总、组织、存储和控制,方便人们 利用计算机进行检索。 信息组织与信息检索是信息资源管理中密切相关的两部分,其中“信息组 织是将处于无序状态的特定信息,根据一定的原理和方法,使其形成有序状态 的过程。其目的是将无序信息变为有序信息,方便人们利用信息和有效地传递 信息。, 6 3 】信息组织是信息资源管理的基本范畴之一,它包括信息的组织和信息 资源的描述,在信息资源管理中起着“承上启下”的作用。“承上”即在信息搜 集的基础上进行;“启下”即为信息传播创造条件,因此,信息组织是信息资源 建设的中心,是建立信息系统的重要条件,是信息检索与咨询的基础,是社会 信息交流的保障,探讨信息组织的理论和方法是构造和完善信息资源管理体系 的迫切要求。信息检索是信息管理活动中不可或缺的一种工具手段,信息检索 作为信息管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个 领域,成为人们日常工作生活的密切伙伴。 1 1 2 信息组织技术及现状 1 1 2 1 传统的信息组织技术 本文从信息组织技术的信息分类与信息描述两个方面进行综述。 传统的分类技术有文献分类法1 3 1 和传统主题法【3 。文献分类法是从学科体 系的观点出发、以知识的逻辑顺序来组织信息的方法。传统主题法建立在自然 第1 章绪论 语言基础上,它将自然语言筛选、精炼、规范以后成为一种严格的人工语言, 并在某种控制下使用。主题法所呈现的是概念间的网状关系结构,它为人们提 供一种直接面向具体对象、事实或概念的信息查寻途径。总之,传统分类法是 以学科分类和逻辑划分为基础的严密而深细的分类体系,主要以印刷型文献为 对象,是一维性的。网络信息具有多维性、交互性、动态性的特点,要对网络 信息进行描述,传统的信息组织有不足之处。文献分类法虽然仍用于网络信息 资源,但它在处理网络信息资源时,已表现出了较强的不适应性。文献分类法 以文献型信息为主要处理对象,不易对网上不同媒体、不同类型、不同性质的 信息进行组织。传统主题法用于网络信息组织的主要不足:对数量庞大且不断 剧增的网上信息来说,主题词数量不够充分;主题词表修订复杂,而且缓慢等。 传统的用于网上信息描述的方式主要有两种:i s b d 4 j 及m a r c 垆j 。i s b d 、 m a r c 都是传统意义上用于文献信息描述的方法。i s b d ( 国际标准书目著录法: i n t e r n a t i o n a ls t a n d a r db i b l i o g r a p h i cd e s c r i p t i o n ) 对信息的描述统一、简洁。 m a r c ( 机器可读目录:m a c h i n e r e a d a b l ec a t a l o g u e ) 是以代码的形式和特定结构 记录在计算机存储介质上的用计算机识别和阅读的目录。i s b d “存在着发展不 统一和以书型文献为基础等历史性缺陷”,“不易处理动态性极强的网络信息” 【6 】。m a r c 格式的专业性很强,描述手段往往只适用于图书馆:操作非常复杂, 非专业人员很难掌握;适用于完整的、静止的信息处理,不易处理动态的多媒 体信息等,在网络信息资源著录方面显得力不从心。 1 1 2 2 信息组织技术研究现状 传统的信息分类和信息描述技术在组织网络信息时存在不足,寻找新的方 法也就成为目前国内外许多机构研究的重点课题。目前本体论( o n t o l o g y ) 在信息 分类的应用在国际上已成研究热点【7 1 。本体分类与图书馆分类、主题词表以及 其它知识分类工具的区别是( 8 】:前者是对某一领域中知识进行表述的词和术语, 编制者根据知识领域的结构将这些词和术语组成等级类目,并给这些类目以特 性和限制。本体分类系统与传统知识分类工具的一个根本区别是系统中的概念、 特性、限制条件等都可以是计算机易于处理的,因而本体分类表中的知识定义 可以被再利用。 国外一些人工智能、知识管理等研究机构,在本体论研究方面非常活跃, 筹1 章缝论 许多阐际信息管理相关的科研机构,开展了不同形式和不同规模的国际学术研 讨会,如2 0 0 1 年1 2 是,在美翻佛罗里达,举办了可扩展标记语言( x m l ) 国际 会议及展览,会议讨论了x m l 怒建立本钵论的主要方法【9 嘲,2 0 0 1 年7 弼,在 美国加利福尼亚斯坦福大学,猫开了国际语义网站研讨会,讨论了通过本体论, 在语义网菇上实现瓣艟信息检索1 9 】。2 0 0 2 年7 爨,第1 8 震人工智能国际大会在 加牵文e d m o n t o n 霹开,会议专设本体论与语义两站分会场,讨论了本体论在 语义网站中的应用,以及本体论的描述语言、工具、方法及内容1 1 1 】。在研究进 展_ 方蘸豹报道,如凝毽禳大学蛉g r u b e r t 曳晕在1 9 9 3 年羧掇遵了篱易本髂论 转化方法规范,可以算作本体论在知识工程领域最早的报道 到。a d a mp e a s e 报道了一种用于谮义网站的大型本体论的应用,讨论了用于语义网站的大型正 式本钵论的嚣发糍陂弱f 1 3 】。总乏,本体论熬磷究,在莺鼯上舞震鲍轰轰烈臻, 已经成为信息系统研究熟点之一。 豳内研究本体论在信息系统中研究已有糟千年,哈尔滨工业大学计辨机科 学鼍量程系、中国辩学院诗算鼹露溪汪大学等攀整,骞一些本钵论磅究瓣投递, 主要液现在信息梭索、产品信息建模、虚拟搬业建模、常识知识库等方俩 7 ”, 其它单位的论文内密多为介绍国外研究进展。参考文献c 1 4 认为在网络环境下 海蠢靛患熬集或、分耩处理与辍务孛,本俘论是一耱缀鸯魏景筑方法。蔡铭等 报道了基于语义嗣技术,提出一个原型系统,对网络化制造环境中分布斌异地 企业资源信息获取岛用户透明化检索的关键技术进行了深入研究 1 5 l 。在农业信 愚管遴研究孛,零傣论在鏊蠹较举擐遘是在第三藩翌溺农效筵惠技术嚣鼯大会 ( a f i t a 2 0 0 2 ) 上发淡的论文,文帮介绍了f a o 合作,翻译了f a o 农业多谮种叙 词表( a g r o v o c ) ,为构建农业多语种本体论打下坚实的熬础。 凌瓣终售惠戆接述方瑟,凌在元数据茏袋隽嚣骣接述数撵标难。元数耀为 各种形态的电子信息单元和资源集合提供规范、普遍的描述方法和检索工具; 元数据为分布的、豳多种数字化资源有机构成的信息体系( 如数字图书馆) 提 貘整合麓工吴与缝带。离牙元数据豹数字图书继将是一盘敬沙,籍无法掩供有 效的检索和处理,目前信息生产者和用户都融认识到元数据的重要价值。i e e e 从1 9 9 3 年以来召开了一系列以邂解和定义“元数据”或数据访问问题为主题 酶学术讨论会。1 9 9 4 年2 胃,焱美雪露开了蘩二次元数据学术讨论会,其嚣酶 第1 章绪论 是解决元数据访问和或标准化问题。1 9 9 4 年5 月在美国华盛顿召开了第三次 学术讨论会,会议目的是定义元数据框架( 说明存储数据的数据) 。考虑了多种 数据类型和格式:图像、音频、表格、栅格、图形、算法和程序、文件等。提 高访问数据的速度和应用数据,促进不同学科间的数据共享。目前,除i s o i t c 2 1 1 外,全球许多国家、国际学术团体、公司都在研究和制定与其密切相关的 元数据标准和建立元数据库。元数据热方兴未艾,许多国际学术会议均将元数 据作为学术讨论的主要议题之一,有关元数据的论文不断发表。通过分析元数 据标准的发展趋势,归纳出的主要研究工作有:数据交换网络与元数据集成的 理论,元数据在数据交换网络中及不同产品间的集成,与数据交换网络有关的 元数据问题,数据交换网络环境中的元数据管理,元数据交换和互操作规范以 及通过元数据管理数据质量等等。 1 1 3 信息检索技术及现状 1 1 3 1 传统的信息检索模型 1 r 方法按其匹配方式可分为两种:一种是传统的基于关键词的字面匹配方 式的检索方法,一种是近年来正在研究的基于语义分析的概念匹配方式的检索方 法【3 剐。基于关键词的字面匹配方式的r 不具备智能分析联想能力,其本质问题在 于没有从语义理解的角度考虑文档与词语的意义,仅采用单一、表面化的模型, 用单一的词或词的组合来对网络信息资源进行检索,缺乏知识的理解和处理,因 而返回的结果在查全率和查准率上都无法满足检索者的需求。目前,传统的检索 方法有【i6 :布尔逻辑模型、向量空间模型以及概率模型等,下面简单介绍它们的 检索原理。 ( 1 ) 布尔模型是基于集合论的一种简单匹配模型,其缺点是无法在匹配结 果集中进行相关性的排序,同时也无法区分词条在文档中所占的权重,并且漏 检比较严重,可见布尔模型是一种简单但是不够理想的检索模型。 ( 2 ) 向量空间模型中,文档用加权的关键词向量来表示,相似度用两个向 量的夹角余弦来计算,该模型优点是比较简单,易于计算,但由于该模型术语 间相互独立的前提假设有些过于简化,容易造成误检( 检索到不相关的文档, 例如在一词多义情况下) 和漏检( 没有检索到相关的文档,例如同义异形词情 第1 章绪论 况) 。 ( 3 ) 概率模型是基于贝叶斯概率论原理的模型,不同于布尔和向量空间模 型,它利用相关反馈的归纳学习方法,获取匹配函数。为了提高检索结果的效 率,系统需要与检索者进行交互式( f e e d b a c k ) 操作。概率模型是在布尔模型的基 础上,为解决其检索结果的不确定性而提出的,因此其检索机理与布尔模型类 似。 1 1 3 2 概念匹配检索 概念匹配检索突破机械的字面匹配缺陷,从词所表达的概念意义层次上来 认识和处理用户的检索要求。该检索方式就不再局限于词条本身,当用户输入 一个查询词条时,不仅要找出与查询表达式匹配的结果,而且要求根据该词语 概念与其他词语概念的内在关联,也要找出包含与查询表达式概念相同或相近 的词语的文档,即能实现语义检索。 ( 1 )概念匹配检索概述 概念是客观事物在人的头脑中的反映,它是抽象的、要通过字、词、词组 等概念描述元素才能表达出来。同一个概念可以由多个描述元素来表达,这些 描述元素在此概念约束下形成了同义关系【埽】。基于概念的语义知识推理如图1 - 1 所示。 图卜1 语义知识推理 当人们看到特定的上下文与语境时,之所以能准确、迅速地对应到相应的 “事物”,是因为经过了“概念”这一层。图1 - 2 1 8 】说明了从人们的常识理解表 达到机器的理解和表示的过程。 第l 章绪论 匣圈曰圉 圈圈圈囵 鞠卜2语义连臻体 概念匹配检索模型1 1 8 】的原理如图1 3 所永,概念匹配梭索的核心是熬于概 念夔梭索莲配援铡。摄念匹酝捻索欣浯义理黪夔囊度分援麓患对象与稔索老懿 检索请求,是一种建立在概念缴蔟相关关系赫础上的检索技术,概念隧配检索 与传统的基于关键词的i r 方法谢着本质区别:概念匹配检索抽取能够描述信息 怼象内容戆攘念,麓| 三i 拣零| ;梭索者在系绕戆赣麓下选用会逶戆捡索瑗凌达曩 户需求:在此基础上两者之间进行概念匹配,匹配在语义上相同、相近、相关 的词语【3 8 】。一般概念匹配检索必须实现语义蕴涵扩展、语义外延扩展、语义相 关扩攫,实褒圈义扩震猃素帮矮美簇念联惩。莛予稷念匿酝戆语义裣索茭蓑捷 和基础是概念空间,该概念空间是一个基本的概念语义网络,是可扩展的、具 有增量管理维护的功能,基于概念匹配的语义检索核心要点是基于概念的检索 匹配瓿潮,疑语义疆解戆焦度努奉厅售悫露象与检索者兹检索请求,是一释建立 在概念及其相关关系基础上的检索技术口引。 嚣卜3概念匹配检索原理 为了解决传统关键词匹配检索中词汇差异难题,通过概念空间用概念及其 相互关系对文献和榆索者的请求谶行描述,以概念匹配取代传统的字面暇配, 以_ 龟发震一静更艇接迓入们思维瓣检索攫术,改善了检索系统鲍检索效祭。壤 念匹粼检索立足于辩信息进行语义层次上的分析和理解,通过概念空间,将检 6 第l 章绪论 索者的检索请求映射至一个完熬的相关的知识空间。当检索者输入检索词,系 统蟪飨蹬其辐关概念,在此基戳上进行联怒梭索。因此,建立在概念奎耀基毯 上的语义检索具有分析和理解自然语言的能力,可以实现扩展检索、联想检索, 突破了传统的基于关键词的嗽的单一模式,宓现了概念层次上的匹配检索与扩 展。键是,如傅在一个分布式懿,器梅的网络信息环境下嶷褒完全意义熬语义 检索怒目前我们聪蕊对的最大挑战。 1 1 3 4 信息检索技术研究现状 关予售息捡索瓣踅,国内舞麴疆变主要集中在搜索弓l 擎上,售感主鼗寒叁蚕 书馆军h n t e m e t ,著名的i n t e r n e t 搜索引引擎青g o o g l e ,y a h o o ! 等。信息搜索技术 主要鼹分类技术和全文检索技术。这两种技术采用的是关键词匹配算法,虽然解 决了些莹惠援索耀题,毽远运不裴潢是人们戆翥要。 传统的直接基于关键词的信息检索技术融不能满足用户在语义上和知识上 的需求,寻找新的方法也就成为目前研究的热点。目前的动向是基于概念搜索 懿憨憋,宅把癌惑检索腻黄统懿溪瓣层嚣旋糍戮穰念夔豢甏。在理谂磷瓮镶壤, 概念躁配检索的研究领域包括专她领域与通用领域以及互联网。研究的信息对 象也从文本信息扩展到音频,视频等各种信息载体形式。躁前理论研究的瓶颈 是知谖体系鼙壤念空瘸戆秘建麓憨( 奉钵懿掏建淘嚣) ,嚣惩凝念空藩戆疆究骜 是未来理论研究的熏点1 1 9 1 。 本体具有的良好的概念层次结构和对逻辑推理的支持,因而在信息梭索, 幸寺鬟怒在基于巍谈瓣捡素孛德裂了广泛静痘鲻1 2 0 2 1 。在参考文献 1 4 1 中揆密: 国际上目前本体应用在信息检索中的著名项目包括( o n t o ) 2 a g e n t 2 、 o n t o b r o k e r 2 3 1 和s k c e 2 4 1 。这3 个项目也分别代表了3 个方向,( o n t o ) 2a g e n t 的 磊翡楚巍了黎韵焉户检索裂联嚣要匏w w w 上已有静本转。o n t o b r o k e r 瑟淘豹 是w w w 上的网页资源,目的是为用户检索到所需要的嘲厩,这些网页含有用 户所关心的内容。s k c 是一个藏在进行的项鳗,其目标是解决信息系统语义异 搦的鞠题,实褒翼稳豹自治系统之闯的互揉,f 譬。该瑗鼙蒂黧通过在o n t o l o g y 上 建立一个代数系统,用这个代数系统来实现各o n t o l o g y 之间的互操作,从而实 现异橡系统之闻的互操作。晕魏可以重用的比较代表性的本体有:关予语言、 词范等豹本俸w o r d n e t f 2 5 和g u m l 2 6 1 、多稔多大学的虚撩企业项强的企渡本体 7 第1 章绪谂 t o v e l 2 7 】以及本文中提到的主蹶等等。 1 1 。4 应用系统分析 傣息资源管理系统的各个领域都有广泛的应用,比较欺型的应用系统是网 络嚣浚下嚣图书德系统黧文档餐淫系统。双一整文藏资精可戳看窭,瓣耨这嚣 种信息资源管理系统既存在优特点,也存在一魑不足。 ( 1 ) 网络环境下的图书馆系统 瓣络嚣襞下静辫书宝窘一觳獒有丰富姿澈、统一兹集成器露器跨津梭索特点。 但是也存在一些不足。 1 ) 参考文献【3 0 】中指出目前图书馆缺乏僚息资源的整体建设目标,网络化 谖不强,各馆之阔酸乏合终蠢秘俸,重复开发器重复建设。耨建垂冬数据游标准纯 程度不高,网络化的特征是开放、互联、资源拭享,这些特征实现的前提是标准 化,没有标准化就没有网络化。 2 ) 参考文献 3 1 1 串指出文敞之闯缺乏联系的褥题,溪书馆往往将若干个库 捆绑襁一起,也仅仅局限于使用同一界面的层次上,体现不出文献内在的联系, 人类的知识是一个搁互联系鲍鸯枫整体一个离级的信息资源系统也应该自够反 浃知识闯的相互联系。 3 ) 参考文献 3 2 1 中指出在信息检索方面数字图书馆主瓣提供基于关键字匹 配的检索帮基于关键诲布尔缓含检索,无法给检索结果提供上下文信息,以帮甓 用户侠速定位和获取信息。另外数字图书馆不能徭好她解决同义异形检索问题, 容易造成漏检。 4 ) 参考文欺f 7 6 】中指出黧蓬要的学羊季麓弼论文索弓l 躐摘要数据露,懿国 内酌中国报翻索弓 、中国化学文摘和潮外的e m c 、b a 、i n s p e c 、s c i 、 e i 等,不提供期刊论文与这些全文资源的直接链揍,读者在那些索引数据库中找 到所鬟瓣麓铡论文懿簇名售息惑,不褥不运鼷寒重瑟进入全文数据痒查找器文。 ( 2 ) 文档管理系统 文档管理系统可以更好的实现资料管理、节约管理人员的工作时间,更方 痿资辩懿检索,竞l 受人员变动豢_ 塞翳影嚷,在金监懿基零餐理孛更簿夔超瑙售 息共攀的作用,但是目前的文档篱理系统仍然存在一些不飓。 第1 章绪论 1 ) 参考文献 3 3 中讨论并实现了一个w e b 文档管理系统,该系统具有文档基 本信感与电子文撼文传据分离的蠢锉结构帮多用户权限设定的特点。该象统没毒 涉及文档检索功能的实现,仅邋过树形结构溯览文档信怠。 2 ) 参考文献 3 4 1 描述了面 1 i n t e m e t 的文档管理系统的设计与实现。该系统 故特点是在i n t e m e t i 疆, 境下提供绘震户一个友好的爱户界露,滚足大量不耀类型兹 用户进行协同工彳譬时访问文档管理系统的需簧。该系统提供了一个分布式的、多 层的、基于组件和易于扩展的文档管理系统的体系结构和平台,但是没有涉及文 档黪捻素淹题。 3 ) 参考文献【3 5 中实现了个基于数据簿的文档管毽系统,通过a d o 中的 s t r e a m 对象对数据库中的文档资料进行读写,该系统也存在不提供文档检索功 能。 4 ) 参考文献 3 6 伸设计并实现了统一资源管理、统一用户管理、统一身份 认证的文档管理系统。采用“资源管理器”式的目录结构浏览、修改信息。信息 多榉豫,提供多露众文检索霹攀疼垒文检索秘二次捡索,懿是不提供语义捡索蠢 基予规则的检索。 由上述分析可知,这些典型的信息资源管理系统有其优点,但是在储息的组 织上鞠箍惑夔捡索上稳存在不怒之处。 1 2 研究目的与内容 1 2 1 研究目的 骚蒋企事业枧梅在信息资源繁理上存在的主要问题脊: ( 1 ) i n t e m e t 上与企事业密切裙关的大萤信息豹管理闷题 i n t e m e t 并非为管理大量信息而设计的,i n t e m e t 上现有的信息和数据量正 在失去控制。出于i n t e r n e t 上信惑憋组织形式鬃现多类型、多媒体、非搜藏、跨 地区、分布分散、开放、无序警特点,超媒体链接一方西骥得网络信怠乏闻的 关联性加强,另方面,由于缺乏必要的过滤、质量控制和管理机制,为用户 选择剥蹋网络信怠蛰来了缀大懿不霞,网络僚患检索+ 分溪难,大大影响了售 息利掰的效率。企事业机构如何组织、利用i n t e m e t 上与自身密切相关豹信息资 9 第1 章绪谂 源,将是信息管理中存在的一个熏要问题。阑此为更快更好地管理好i n t r a n e t 、 i n t e m e t 上故锭息资源,有必要黠i n t e m e t 上瘸户感兴趣豹镶患资源进露蠢效豹 选取、组织、有序化管理,实现信息资源效粥的最大化,彼之成为适合众事业 机构需要的有用信息集合。 ( 2 ) 企事效内零信息资滚瓣整合闰莲 翻前企事业机构内部的月鼹务器上已经存在太量的信息资源,这些资源在资 源数擞很多的情况下,将会出现信息难以定位、共享和重用等问题。许多机构 之爨以出现这些阉惩,是霞爻没窍对圈终环壤下戆电子臻崽资源进行鸯痔捉、 结构化( w e l l f o r m e d ) 的组织和存储。因此必须对这些已经存在的信息资源进行重 新组织和归类,对众多的“孤岛式”的信息系统进行整合。 3 ) 捡索效攀低、硷索效黎差懿运题 信息资源的组织方式将带米信息检索的闯题,如果系统内部信息组织的结 构缺乏语义模型的支持,将难以实现复杂概念层次和数据缩构情况下的精确检 索鞋及复杂熬整瑷功麓,絮无法安瑗弱义摄念淤及上下经糕念戆硷素;捡索餐 能化樱度不高,无法实现简单推理检索。目前企事业的信息资源管理大部分是 基于关键词匹配的检索,检索模式单一,存在蠢不全问题和存在歧义问蹶。 凳了薅决鏊蘩众事鲎撬秘在信悫资源管糕上存在夔上遴润霪,结台黧麦努 信息资源管理技术的动态,本文提出了基于主题图的信息资源管理系统并对之 进行研究。本课题的选题来自省教委的创新支撑平台模型研究,课题设计的 主要瓣拣是: ( 1 ) 对企事业特定领域中积累的大量倍息资源进行分类管理和统一描 述,克服信息孤岛问题,使用户可以找到与嚣求相关的信息资源。根据信息资 溪瑟爨有豹颁域知识含义,穗分散在各释舅稳系统中静貉荚信息方便、抉速鲍 融合厝呈现给用户。 ( 2 ) 组织并描述i n t e m e t 上与企事业密切相关的信息资源,使褥用户能 在较少的信息资源集中快速定僚瑙穗关静、感兴趣麓信意,减少重焉穗共享信 息的成本。 ( 3 ) 采用基于概念匹配的语义检索,尽爨克服基于关键词匹配检索鲍弊 端,尽可麓解决检索中出现酌磷义舅形帮间形羿义离题,冤服强嗣义舅形和弼 0 第1 章缝谂 形异义问题导致的漏检问题和歧义问题。 ( 4 ) 改进傣怒存储模式,克服医r d b b l s 的数据模式圈定、不易予扩充瓤 维护、不易于重罔和共享的缺点。 1 2 1 研究内容 本文主要在信息资源管理系统内的信息级织和信息检索的以下几个方面开 展研究: ( i ) 蓰建一个基子t o p i cm a p 豹售怠瓷源管理( t m i m = t o p i c m a p b a s e d i n f o r m a t i o nr e s o u r c em a n a g e m e n t1 系统:基于主题图本体实现信息资源的分类 组织和元数据描述,实现基于概念匹配的语义检索和基于规则的推理检索,提 供毫予售患资源静元数据接述与爨体毫子信惑资源戆w w w 链接,疆镶倍患资 源管理系统的信息熙新、维护和寮全控制等。 ( 2 ) 构建领域本体:研究本体论理论、主题图标准和元数据,并参照本 傣谂鬻想,梅建圭嚣蓬奉俸,实现领域信惑浚源豹d u b l i nc o r e 元数据攒述。 ( 3 ) 提出基予概念匹配的语义检索的算法实现:提出了语义检索的结构 图。绘出语义蕴涵擒索和语义联想检索的具体舞法实现。 ( 4 ) 基予规羹| j 静箍理捡豢实现:剩两主题图查遵谮言t o l o g 豹肉在雅理 机制,实现规则检索,获得系统暗含的知识,并将检索结粜以树形结构的形式 呈现绘用户,帮助用户获褥最镁的检索结果。 ( 5 ) 提出一种计算概念稳识度算法:旗予主题鬻提供瓣概念空闯,进行 了概念相似度计算,向用户提供一定的参考倍息,实现领域漆源的增值服务。 ( 6 ) 解决检索中出现的隧义异形和嗣形器义词闯题,尽可e 地减少传统 裣索审豹漏检和鼓义豹发生。 1 3 研究方法冀创新点 1 3 1 研究方法 本文竣本薅谂为基本豢导懋慧,综合运溪诗羹瓤信崽援木t o p i cm a p s 、 d u b l i nc o r e 和信息检索等基本知识及方法,论述基于主题阔的信息资源管理 第1 章绪论 系统的作用机理,探索信息分类、信息资源与用户之间时空规律性联系,通过 理论研究、实验与调查相结合的方法,力求对这一问题进行深入系统研究。 本文将采用如下的研究思路:需求分析体系架构及其设计思想+ 基 础技术研究卜系统实现。 1 3 2 创新点 与其它同类问题的研究相比,本文可能的创新之处是提出了基于主题图的 信息资源管理系统。该系统采用基于主题图本体和元数据的信息组织方式,并 在信息组织的基础上实现概念匹配的语义检索和规则检索,以实现有效的信息 资源管理和信息共享,同时在语义检索时提出概念相似度算法实现,给出了概 念相关度的一种分析。 1 4 本文的组织结构 根据论文研究的内容、思路、方法,本文的组织总体上分为七章。 第1 章:绪论。主要从信息组织和信息检索两个方面论述了信息资源管理 的研究现状,指出信息资源管理中存在的问题,引入研究课题,并介绍了研究 内容和论文的组织。 第2 章:t m i m 体系架构。首先提出了t m i m 体系架构,并描述了该系统 架构中的各个功能模块,其次详细介绍了该系统架构的设计思想。 第3 章:本体论( o n t o l o g y ) 。首先研究了本体的定义、本体的分类、本体的 构成、本体的构建准则和方法,其次简单介绍了几种的本体描述语言。 第4 章:主题图标准( t o p i cm a p s ) 及相关技术。首先研究了主题图数据模型 中的核心概念及定义,给出了主题图数据模型的u m l 建模表示,其次分析了 x t m 的特点并给出语法结构树,最后给出了t o l o g 查询语言的语法,并进行简 单的实例分析。 第5 章:元数据与d u b l i nc o r e 。给出了元数据的定义并详细分析了d u b l i n c o r e 中各个元素的含义。 第6 章:t m i m 系统实现。首先重点探讨了基于u s c h o l d 模式开发本体的 第1 章绪论 步骤及实现思想,给出部分本体的编码表示,在信息资源标注部分,详细分析 了使用d u b l i nc o r e 描述信息资源的三层结构,并给出部分编码表示,提出了同 义异形和同形异义问题的解决方法。其次分析了基于主题图的检索模型,重点 探讨了基于概念匹配的语义检索和基于规则的推理检索,实现了概念相似度计 算,给出了一个概念相关度分析。最后给出系统运行实例。 第7 章:总结与展望。对本文进行总结并对t m i m 系统进行了研究展望。 第2 章t m i m 体系架构 第2 章t m i m 体系架构 2 1t m i m 体系架构及功能分析 为解决第1 2 节中描述的用户需求,t m i m 体系架构的具体实现目标是实 现信息集成,支持统一的导航,统一入口和资源唯一性定位( u r i ) :支持对信息 资源的分类管理,并根据用户的权限,支持用户对本体库增加、删除、更新分 类概念以及与该概念相关的各种关系等;支持对信息资源的元数据描述的增加、 删除以及更新;在概念层次上理解用户的检索需求,实现语义检索以及规则检 索,要求解决同形异义和同义异形的问题,以及在语义检索时提供相似度和相 关度分析,同时提供二次检索功能:向用户提交检索结果集,并将其以一种友 好的界面方式呈现给用户;提供系统必要的安全管理等。 在具体的实现目标基础上,t m i m 系统架构图如图2 1 所示。 普通用户管理者 晕晕 l i n t e r n e t 或i n t r a n e t i i 领标注接口类li 领标注接口源i | 语接口索ii 信接口航| l 信接口护i | 用接口理i 管 领类标注分li 领源标注注l g i 一语义检索信息导航i i 信息维护i i 用户管理 理 层 w e b 服务器 l 安 全 i 主题图a pr i 控 制 管 存 国国嚼 理 储 层 图2 1t m i m 系统架构图 该系统架构中的各部分功能分析如下: ( 1 ) i n t r a n e t 与i n t e r a c t :i n t r a n c t 是员工在机构内部传递、共享和利用信 息资源的相互合作的网络,i n t e m e t 是用互联网络将外部用户和机构连接起来的 第2 章t m i m 体系架构 逻辑结构,用户通过w e b 页面实现信息的获取和积累。 ( 2 ) 领域信息分类标注:该部分实现领域本体系统建模,主要建立信息 分类本体,形成分类的层次结构。分类标注的目的是将本体形式化地表示并存 储在本体库中,被标注的本体提供的概念空间是语义检索的基础。 ( 3 ) 领域信息资源标注:该部分功能是对i n t e m e t 和i n t r a n e t 上用户感兴 趣的信息资源抽取元数据信息,并借助标准元数据和本体对抽取的信息进行标 注,旨在将信息资源转化为结构化的描述信息并存储在x t m 文件或数据库中。 ( 4 ) 语义检索:在本体库提供的概念空间的基础上实现概念匹配的语义 检索,使用规则进行推理检索,提高了信息资源的共享和重用性。这种能够充 分利用分布式资源的、提供语义支持的信息检索为系统顺利开展和实施网络化、 为跨企业、跨区域的企业( 事业) 间协作提供有力的保障和支撑。语义检索是 t m i m 系统的核心部分之一。 ( 5 ) 信息导航:该部分包括方便用户浏览、修改信息,提供树形导航结构, 提供信息资源的描述与具体电子信息资源的w w w 链接。 ( 6 ) 信息维护:该部分包括对信息分类以及信息资源的元数据信息的编辑、 修改、删除和移动等,以实现信息的及时添加、更新和去除陈旧的信息。 ( 7 ) 用户管理:包括用户的权限管理和基本信息的管理。 ( 8 ) 安全控制部分:该部分包括对登录用户进行分类管理,不同级别的用 户访问和操作密级不同的信息,该部分还包括记录用户增加、删除、更新等操 作信息,以提高信息维护的安全性。 ( 9 ) t m i m 系统的核心部分是本体库、数据库和x t m 文件等。本体库是 概念及其相互关联的集合,是信息组织与信息检索系统的基础。本体库存放的 信息包括:( a ) 领域信息分类标注以及这些分类概念之间的关系;( b ) 系统中其它 的概念与关系。数据库与x t m 文件是信息资源的元数据描述信息以及信息资 源之间的关联关系的集合。其中元数据描述信息主要来自两个渠道:( a ) 来自机 构内部已经存在的信息资源的标注,这些信息资源以文字、图像、符号表达, 以印刷或电子方式记载信息,可供人们交流,如文档、技术资料、科研项目、 经验总结等;f b ) 来自i n t e m e t 上与企事业的业务活动密切相关的信息资源的标 注。数据库中还保存用户信息以及推理的规则信息。 第2 章t m i m 体系架构 2 2t m i m 体系架构设计思想 信息资源管理的核心部分包括是信息组织和信息检索,因此为实现该体系 架构,将信息的分类组织和基于概念匹配的语义检索相结合,以提高信息资源 重用和共享。本文结合本体论( o n t o l o g y ) 、主题图以及d u b l i nc o r e 元数据,实 现信息的表示、存储、重用和共享。 2 2 1 基本指导思想一本体论 为实现有效的信息管理,必须针对领域信息资源进行分类,该分类既要考 虑到人们对概念的分类,又要兼顾计算机的可实现性和可用性。本体通过对概 念的严格定义和概念与概念之间的关系来确定概念精确含义,表示共同认可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论