(计算机软件与理论专业论文)基于语义web的智能信息检索系统研究.pdf_第1页
(计算机软件与理论专业论文)基于语义web的智能信息检索系统研究.pdf_第2页
(计算机软件与理论专业论文)基于语义web的智能信息检索系统研究.pdf_第3页
(计算机软件与理论专业论文)基于语义web的智能信息检索系统研究.pdf_第4页
(计算机软件与理论专业论文)基于语义web的智能信息检索系统研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机软件与理论专业论文)基于语义web的智能信息检索系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

郑州大学硕上学位论文 基于语义,c b 的智能信息检索系统研究 摘要 传统信息检索方式下,由于信息资源缺少统一的语义描述,用户难以查找到与 实际需求相关的资源,难以实现信息资源的语义共享。如何使被管理信息资源具有 应用程序可以理解的含义,并根据信息资源所具有的领域知识,实现信息资源的语 义检索,提高数字化信息资源的利用率,这些问题是信息检索领域所面临的挑战。 语义万维网( s e m a n t i cw e b ) 是万维网的发明人t i mb e m e r s - k e 倡导的下一代 万维网,旨在赋予万维网上所有资源唯一的标识,并在资源之间建立起机器可处理 的各类语义联系。语义万维网是对当代万维网的扩展和延伸,能够以一种明确的、 形式化的方式来表示信息资源,提高异构系统之间的互操作性,促进知识共享。 本文通过对传统信息检索的基本原理、技术及工具、信息检索发展现状等方面 的分析研究,结合万维网的具体特点,提出了基于语义万维网的语义信息检索体系 框架,详细描述了语义信息检索系统c a t a s e a r c h 的设计思想和检索流程,并对系统 模型的合理性进行了论证。 本文对语义信息检索系统中所涉及的若干关键技术进行了深入的分析研究,提 出了有效的解决方案,为c a t a s e a r c h 实验系统的顺利实施奠定了良好的基础,这些 关键技术主要包括:领域本体建模、目标文档的获取、语义路径分级和检索结果排 序。 最后本文在理论分析的基础上,开发了基于语义网的化学信息检索实验系统 c a t a s e a r c h ,实现了其中一些基本的功能,该系统以物理化学领域的催化剂为检索 对象,构建了相应的领域本体。通过将各种信息资源向知识本体层映射和语义推理 处理,可以充分发掘各资源之间蕴含的关联关系,从而在根本上解决了检索中资源 对象语义信息缺乏的问题,满足用户对资源对象语义检索的需求。本系统实现了相 对比较复杂的语义检索,提供了语义推理的功能。这些功能都是传统的基于关键字 的检索方式所难以实现的,并在实验中验证了c a t a s e a r c h 系统模型的可行性。 关键词:语义力i 维网、领域本体、信息检索,语义检索 郑州大学硕士学位论文基于语义w 曲的智能信息检索系统研究 a b s t r a c t a c c o r d i n gt o t r a d i t i o n a li n f o 咖a t i o nr e t r i e v a lp a t t e m ,t h ei n f b 姗a t i o nl a c k sa u n i f o 皿s e m 卸t i cd e s c r i p t i o n ni sh a r df o fu s e r t of i n dm o r er e l e v a n ti n f o m a t i o na n dt o f e a l i z et h es e m a n t i cs h a r ei r ii n f o m a t j o nr e s o u r c e h o wt oa s s i g nt h em a n a g e dr e s o u r c e am a c h i n eu n d c r s t a n d a b l em e a n i n gs oa st of j n dw h a tu s e r sr e a u yn e e d ,a n dh o wt o r e a l i z et h es e m a n t i cs e a r c h i n gb ym e a n so ft h ed o m a i nk i l o w l e d g e ,a r cc h a l l e n g i n gt a s k s f o ri n f b m a t i o nr e t r i e v a l s e m 锄t i cw 曲i st h en e x tg e e r a t i o nw e b ,w h i c hi sa d v o c a t e db yt i mb e m e r s k e w h oi saf o u n d e ro ft h ew e b i ns e m a n t i cw e b ,e v e r yr e s 叫r c eh 踮u n i q u ei d e n t i f :i e r a l l d t h e r ea r ea uo fs e m a i l t i cr e l a t i o 璐b e t w e e nr e s o u r c e s t h es e m a n t j cw e bi sa ne x t e n s i o n o fc i l r r e n tw e bi nw h i c hi n f o 珊a t i o ni sg i v e nw e l l d e f i n e dm e a i i i n ga n dm a k ec o m p u t e r s a n dp e o p l ew o r ki nc o o p e r a t i o n h a v ea n a l ) r z e dt h ep r i i l d p l e ,t e c l l n o l o g y ,t o o la n df e a t l l r eo ft r a d i t i o n a lr e t r i e v a l si n w c b ,t h ep a p e rp m p o s e saf r a m e w o r ko fi n t e l l i g e n tr e t r i e v e 一“c a t a s e a r c h ”b a s e do ns e m a n t i cw e b na l s od e s c r i b e sd e s i 印i d e aa n dp r o c e s so ft h ej t e l l i g e n ti n f b m a t i o nf c t r i c v a ls y s t e mi nd e t a i l ,a n dp m v e si nt h e o r yt h ev a l i d i t yo ft h e 仃棚e w o r k a i m sa tk e yt e c h n j q u e so fs e m a n t i cr e t r i e v es y s t e m ,t h ep a p e rg i v e so l l rs o l u t i o n s w h i c he s t a b l i s ht h et h e o r yb 踮i sf o ri m p l e m e n to fc a t a s e a r c hs y s t e m n e s ek e y t e c l u l i q u e si c l u d ed o m a i no n t o l o g yc o n s t m c t i o n ,i f 0 咖a t i o nr e s o u r c ec o l l e c t i o n ,s e m 粕t i ci n f e r e n c e ,a n ds o no f f e t r i e v er e s u l ts e t b a s e d0 no u rt h e o r y 锄a l y s i s ,w ed e v e l o p e das e m a n t i ci n f o 咖a t i o ns e a r c hs y s t e n 一 c a t a s e a r c h t h es y s t e ms e l e c t si n f o r i a t i o n sr e l a l e dt oc a t a l y s td o m a i na se x p e r i m e n t o b j e c t s ,a n db u i l d sr e l a t e dd o m a i no t o l o g y c o m p a r e dw i t ht r a d i t i o n a lk e yw o r d sm a t c - h i n gr c 啊e v a is y s t e m ,t h es y s t e mc a n 矗n dm ej n t e m a lr e l a t i o n s h i pa m o l 培f c s o u f c e s ,a 1 1 d r e p r e s e n tu s e rm o r er e l e v a n tr e s o u r c em r o u g ht h em a p p i n gf r o mr e s o u r c el a y e rt o o n t o l o g yl a y e ra n dt t l es e m a n t i ci n f c r e n c ep r o c e s s w h a t sm o r e ,t h es y s t e mc a nr e a l i z e s o m ec o m p l i c a t el 【n o w l e d g eq u e r ya n dv a l u e a d d e ds e 九,i c e i ta l s op m v e st h ec o 玎e c t n e s s o fc a t a s e a r c hs y s t e mi np r a c t i c e k e y w o r d s : s e m a n t i cw e b ,d o m a i no n t o l o g y ,i l l t e l l i g e n ti n f o 珊a t i 咖r e t r i e v e , s e m a n t j cr e t r i e v e i i 郑重声明 y9 7 诣6 本人的学位论文是在导师指导下独立撰写并完成的,学位论文没有剽窃、抄 袭等违反学术道德、学术规范的侵权行为,否则,本人愿意承担由此产生的一切 法律责任和法律后果,特此郑重声明。 日 0 1 叫 挫 月一争 k 年嗽以 者 怍文沦位学 郏蛾大学硪_ = 学往论文莲子语义酗静智髓嚣爨捡索系统臻究 第一章引言 1 1 阎题的提出及研究意义 l 。l 。l 阁题的提氆 信息资源、物质资源和能缀资源构成现代社会经济发展的三大支被,有效的获 取信息资源已成为推动社会发展和企业进步的重要力量。广义的信息梭索是指将倍 感按一定懿方式缌织积存诺莛潦,:莠根撂售爨震户兹嚣要技窭套关痿惑豹过程 ( j n f o m a t i o ns t o r a 馨e 锄dr e t f i e v a l ) 。狭义的信息检索则仪指从信息集合中找出所需 信息的过程,相当于人们常说的信息查询( i n f 0 珊a t i o ns e a r c h ) 。信息集合是指有 缀绞瓣售惠整终,它霹鞋是数糖痒熬全部遗泶,还可苏怒菜圈套镑l | 芟溅豹全部文献 资料,当然也可以是通过h t e m e t 发布的备炎信息集合【。 万维网是一个巨大的信息资源痒,它的迅速发展和广泛使用已使人们足不出户 矮黢麴天下太事。餐发表在稀掌杂恚1 9 9 9 年7 嚣懿文拳w 要b 绥惠瓣霹谚藏 性估计,1 9 9 9 年全球网页总黛超过8 亿,有效数据超避9 t ,并且仍以每4 个月翻 一番的速度增长。一方面,万维网为用户提供了一个开放的信息共享淤源平台,相 对予传统弱越 l l 式傣惑系统露蠢,久霞戆滋爨捷翡速度纛全臻范围笈掺秘共享蕊惑 资源;但另一方丽,随着信息燃的高速增长,同样也引发了“信息迷航”和“信息 过载”等诸多问题,人们发现要在这个变化多端又鱼龙混杂的信息海洋中,找寻有 俊镶懿售惠并不怒一律容易瓣每。嚣蘧,妥楚分发龚万臻瓣律隽全球臻慧共享平台 的瓯大优势,就必须解决如何有效的访问万维网上信息资源的问题。 l 。l 。2 研究意义 “知识就是力嫩”,本世纪以来,人类进行信息生产的能力高速增长,据估计, 7 0 年代以来全世界每年出版图书5 0 万种以上、期刊1 0 万羊巾以上、专利约5 0 万件、科 技报告约9 万 孛、会谈文献擒多万篱、产晶样本5 0 多万耱,每年发表瓣零车技论文憨 数:i 琏5 0 0 万篇,并摄指数式增长,真可谓信息浩如烟海,如何从这浩如烟海的信息中 找出魇需信息,就成为信息检索的重任1 2 】。 郑州大学硕士学位论文基于谱义、e b 的智月信息榆索系统研究 “楼惠获取魏不对等决定了经济、政治发鼹的不平赞”,对于个入、巍家、企业 乃黧一个民族、豳家而言,谁能掌握信息的主动权,藏麓在现代竞争中的处于有铡 地位。信息检索技术能帮助人们从浩瀚的数据中抽取出对用户有用的信息,能极大 静节省了用户熬爨淘嚣闽。调粪数提显示,鞫翦有6 8 2 的入经常使熙搜索引擎, 它怒目前仅次予融予自# 侔的网络应用;另蠢4 l 的入通邋搜索引擎遴入购物网站, 8 4 6 的新网站怒通过搜索引擎被发现。同时,科学证明,搜索引擎是未知状态下 发现有效信惠的疑有效方式i 3 1 。这些数据怒以表明,先避豹信息检索技术对于嬲疑 和商业用户来说,都是极具实用价值的。 信息检索作为信息学领域中最活跃的研究分支之一,其涉及到多学科领域的交 叉囊于筝,主要包撰:信息豹缀织、存糖,索弓l ,异矮数攥源豹集成秘人工智戆等技 术,信息检索技术的研究与发戚和这些相关领域的发展麓患息相关的,同样的,对 新烈智能信息检索技术的研究也能推动相关科研领域的发展。因此,智能信息检索 技零毳; 究还具煮较褰数学豢璎谂意义。 1 2 国内外研究现状及分析 l 。2 。l 痿惠检索磺究现状 信息检索( h l f o n n a t i o nr e l r i e v a l ) ,通常指文本信息检索,包括信息的存储、 组织、表现、查询、存取等备个方面,其核心为文本信息的索引和梭索,起源于图 书锖瓣参考咨询帮交攘素霉l 王佟,簸1 9 毽缎下半时善宠开始发震,至世纪年代, 索引和检索成已为图书馆独立的工具和用户服务项目。从发展阶段上滑,信息检索 经历了手工检索、计算机检索到目前网络他、智能化检索等多个阶段。目前,信息 检索已经发震到瓣络纯静徐毅。信息检索鲍对象簌相对瓣 i l 、稳定一敬、由独立数 据麟集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的w e b 内容;信息检索的用户也由原来的情报专娥人员扩展到饿括商务人员、管理人员、 教繇学生、各专她入士等在雨静普通大众。 互联网技术对信息的传播方式带来了瓯大的变化,也明显地促进了信息检索技 术的发展和应用,一大批搜索弓| 擎产品也随之诞生,为网民提供了快遮信息获取翻 2 郑州大学硕士学位论文 基于语义w e b 的智能倍息检索系统研究 网络信恩导航工具。从某种程魔上可以说,网络信息检索代表了当代信息检索的发 展方向,所竣,本文也将瓣络储怠检索作为主臻的研究对象。 搜索引擎按照一定的策略在互联刚中搜集朔发现倦息,并对信息进行理解、提 取、组缓和处理,为用户提供梭索服务,从而熙到信息导航的目的。 f 1 ) 搜索引攀的工俘原理 包括如下3 个过程:一是在甄联网中发现、搜集网页信息。利用能够从互联网上 鑫秀收集瓣页戆s 燕d e f 系统程黪,耋动涛霹互联鼹,并沿着餐舞疆趸孛煞爨鸯獯l 链接行迮,重复这一过程,把爬过的所有网页资源收集起来,本阶段也可以通过人 手工枝条来完成;二蔻对所搜集静信惑避行提取秘缀级,并建立信息綮弓| 库。卣分 析索引系统程序对收集回来的网页进行分析,根据一定的特征提取算法提取网页资 源对象的特征信息,主要包括网页u r l 、编码类型、硪丽内容包含的关键词、关键 词位置、生成时闻、大小、与其它网页的链接关系等元数据信息;三楚根据资源对 象的索引信息,进行信息检索和检索结果集排序等操作;信息检索程序根据用户输 入豹查谗关键谗,欤索譬l 数据露中抉逮缎出稿美售意对象,势瓣捡窭鹣缝采提供多 种排序操作,最终将排序后的结果返回【4 】 5 】【6 】。 国疆索弓| 擎的分类 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:机 器入搜索引擎、哥录式搜索弓| 攀和元搜索引擎翻l s l 翻。 卜r o b o l 搜索引擎 由一个m b o t ( 也称之为s p i d e r ,w e bc r a w l e r ) 程序根据某种策略自动地在互联网中 援集帮发现售惑,著垮翔b o l 程黪搜集劐熬霹贾信息热入到搜索数握瘁中,撰怒户 赢询。r o b o t 搜索引擎【妇3 个部分组成:m b o t 程序、索引生成器和检索程序。r o b o t 程序会怒蘩访嗣互联鞫,对一意范霭内靛网站遴葶亍裣索,一量发瑷薪豹内容倍怠或 新的网淤,它会自动提取这些内容和网蜒e 信息,并添加至资源信息库中。索引嫩成 器则为掰搜集的资源信惠建立索g f 项,潋方便蠲户检索信息。为了能反映出掰页的 更新情况,f o b o t 搜索引擎一般需要餍期性的访问以翦搜集过的网页,及时更薪索 弓i 信息库,这是蒸于r o b o t 的搜索引擎的一个重蒙特征f l l 】。 r o b o l 搜索弓l 擎懿伐点是僖患量大、更瑟及对、无濡人工予颈,缺点是返鹾过 郑州天举矮士学位 垒文基于谱义豫b 静智艟镕惠检索系统疆究 多的光关信息,需簧用户对结果集进行再次的筛选。这类搜索引擎的熟型代表有: a l l a v i s | a 、n o 难酶穗珏疹| 、e x e i l e 、囊受辩呔、轴襄耄。氆i 、& 撼零、谤s 、c ;g l e ,其 中n h e m l i g h t 和舢t a v i s a 所索引的w e b 页面都已经超过了1 0 0 ,0 0 蛾0 0 0 。 卜目录式搜索引擎 与蒸予f o 弱l 秘搜索引擎爨不霹翡是,嚣袋索式搜索弓| 擎戆索零l 数豢撵是蠢编 目人员通过手工方式建立起来的,例如y a h 0 0 ,0 p e nd i r e c t o r y ,s n a p 等,目录式搜 索引攀首先需要建立一个目录分类标准和目蒙结构,编目人员在访问了某个w 曲站 点纛嚣簧绘塞该薅瘫懿稳关攘述,并禳撂懿燕静内容蠢瞧溪将其爨类至一个预定义 好的目录中。目录式搜索引擎大多能提供目聚浏览和直接检索两种服务方式。该类 搜索弓l 擎由于在信息检索中加入了人的智能,所以信息分类准确、导航质量高,缺 点悬嚣妥授天大羹熬久力、维护鳖夫、信爨怒量较少窝爨赣困难。这受援索萼 擎懿 代表怒:y a h 0 0 、轴o k s m a n 、0 p e nd i ”c t o r y 、g og u i d e 簿【1 2 】【1 3 】。 卜元搜索引擎 这类援索零l 擎窝瑷土舔静穰索雩l 擎蕊王僚方式不司,它并没寿鑫悉靛数据,露 是将用户提交的焱询请求送到多个独立的搜索引擎上去搜索,并对各搜索引擎返回 的检索结果集中她理,以统一的格式提供给用户,因此搿元搜索引擎之称。它的主 要精力菝在提离梭索速度、智亿处理检索缩莱、提供个毪纯匏检索瑕势鞋及改善 用户检索界面等方面。元搜索引擎最大的特点就是其本身并不能提供信息检索服务, 面需溪依赖于其它搜索引擎来莛同完成检索谯务。和其它两种检索系统相比较,元 搜索孳 擎返霞结暴鞠信惠量更大、更全,酸煮楚不艟够充分发挥繇使丽援索弓l 擎鹃 功能,也需要用户做更进一步的筛选。现行比较著名的元搜索引擎有m e t a c h w l c r ,。 s a v v s e a 础l 等,其中m e t a c a w l 群能同时检索y 越1 0 0 ,l c i o l 【s m a n ,a l t a v i s t a 等九个主 要的搜索弓| 擎l 翊。 1 - 2 2 问题分析 佟统信惠检索技术都是基予关键字静语法匹配和全文稔索技术,烹簧借韵予霹 录、索引和关键词等方法来实现。此技术的优点是简单、快捷和容易实现,但其存 在五个较突出的阏题。 4 郑州犬举硕:e 学键论文 旗于语义w e b 的智能信息检索第统研究 “忠实表达”问题。出于在大多数情况下用户很难通过简单的几个关键词 来忠实的表达其检索需要,因此表达困难也就导致了检索旗量难近人意: 卜无法准确搦示信息的实质内容。嗣题名、文摘或全文中出现的关键词标识 文献的内容,常常不能充分搦示源信息的实质内涵; 检索算法采鼯谣形嚣嚣磊;诞义莲羝。一义多运( 麓义键) 巍象戆骜滚存在, 导致了传统信息检索的查金率难以保证,而一词多义( 多义词) 现象则导致 在梭索结栗中包含大量静蠢效信意,使得查瀣率遣榷竣满足,在西文串,述 存在有词形变化的问题( 如时态、单复数等) 。这些问题都怒基于关键词匹 配的检索算法中所冤法避兔的; “词汇孤岛”阕题。在人黪大脑中,概念并不是孤立存在黪,它总怒与其它 概念之间存在各种各样的联系,真魑这种联系造就了五彩缤纷的现实世界。 嚣农健统臻惑检索审,这;黪摄念之溺夔语义联系楚摄难攫述鳃。 卜片顾追求高的查全率导致了检索结果的数熬过于庞大,用户根本没有时间 帮精力处璞检索弼虢所有绥采。 总之,在信息快速增长的今天,传统信息检索机制由于缺乏必骚的智能性,难 以适应时代发展的需簧。 1 3 本文研究的目的和研究内容 i 3 。l 臻究爱静 造成上述问题的实质在于传统傣息检索算法所用的只是基于语法层颟上字、 词的简单匹配,而缺乏对知识的表示、处理和理解释能力。解决运姥问题的关键在 于搬信息捡索从基予关键字瓣语法题配提嚣至基予知识( 或土下文) 层面的语义匹 配。因此,本文的主要研究目的就是希望通过赋予待检索储息的具体语义内涵,来 解决传统蔫怒检索j 霪程中爨存在豹润题,璐提裹捡索豹矮爨和效率。 l 。3 2 磅巍蠹容 从上面的阐述可知,“语义信息检索”研究具有很高的学术理论意义和非常广 5 郑州大学硕士学位论文 基于语义w 曲的智能信息检索系统研究 阔的应用前景。本文在前人的研究基础上,主要做了以下几个方面的工作: 卜深入分析了各种传统信息检索技术的优缺点; 卜 针对传统信息检索技术的缺点和不足,提出将语义万维网技术应用到信息 检索中的新思想,建立了语义信息检索的体系结构; 深入研究了语义信息检索系统模型中所涉及的本体建模、语义推理和检索 结果排序等关键技术; 卜 以催化剂领域为背景,利用p r o 惦酣、j e n aa p i 和其它工具,开发实现了基 于语义网络的语义信息检索实验系统c a t a s e a r c h ; 卜 并对c a t a s e 缸c h 系统的性能进行了具体的分析试验和评价,针对系统中一 些尚存的问题提出了改进的思路和方法。 1 4 本文的章节安排 全文共由六章组成。第一章为信息检索技术综述。其中阐述了信息检索的概念、 目的和意义,简要介绍了评价信息检索技术的性能参数,并着重分析了目前国内外 信息检索技术的研究现状,针对信息检索领域尚存的问题,提出了本文的研究目的 和研究内容;第二章介绍了语义万维网的框架体系。文中本部分着重研究了万维网 的信息组织结构、发展历程以及下一代万维网的相关概念、组成和体系结构,并简 要介绍了构建在语义万维网之上的应用。 本文在第三章提出了一种本体建模的改进方法,并对这种方法进行了详细的分 析。第四章对语义信息检索系统模型中所涉及的关键技术进行了深刻的研究,包括 文档的结构化处理、对用户查询需求的语义匹配扩展和分析结果的排序处理等,并 提出了有效的解决方案。在前面两章的基础上,本文第五章提出了基于语义万维网 的语义信息检索技术。介绍了语义信息检索系统c a t a s e a r c h 的设计思想、体系结构 框架模型和信息检索的系统流程,以催化剂领域的信息文档为检索对象,初步实现 了语义信息检索实验系统的一些基本功能,实现过程包括提出问题、需求分析、系 统结构设计、开发工具的选取,详细介绍了在系统构造中所涉及的本体组织结构, r d f 数据的存储并通过具体的推理检索分析和与基于关键字的信息检索系统的比较 郑髑大学。擘链论文 基于语义融b 瓣餐憨荣息捡素藏统研究 充分展示了语义信息梭索系统性能的优越性。了j 藏一步的分析。 第六枣是对全文王终夔总结。箕中指出著分辑了系统孛强不完善豹部分,对将 来的工作进行了展颦。 7 郑州大学硕士学位论文 基于语义w 曲的智能信息检索系统研究 第二章语义网( s e m a n t i cw e b ) 概述 2 1 引言 i n t e m e t 和万维网的快速发展,给人类带来了极大的信息繁荣。但至今为止, 万维网上的大部分信息都是服务于人这一智能体的,很难直接由计算机自动处 理。然而随着万维网上信息量的迅猛增长,w e b 信息处理的主体人已逐渐难以 适应时代的变化和发展,因此对当前网页信息组织结构进行规范化处理,将其扩展 成能为计算机使用和处理的文档,以便于把人类从纷繁复杂的信息查询、处理和推 理等劳动中解脱出来,这就成了时代的呼唤。 万维网创始人t j mb e m e r s - k e 将万维网的演化分为两个阶段【1 6 1 ,在第一个阶 段,力i 维网应该是一个有利于人们进行信息交换和相互合作的强大工具。万维网在 最初十年的发展里,基本上实现了这个目标:它以h 刑l 页面的方式向人提供了大 量可阅读的信息;在第二个阶段,这种合作应该延伸到机器。也就是说,连接到万 维网上的机器也应该能够分析万维网上的所有数据包括内容、链接以及人与机 器之间的交互。如何实现万维网的第二阶段目标正是目前学术界研究的热点。实现 这一目标的难点在于传统的h t m l 语言本身的固有缺陷,这种标记语言的标签集只 是对内容的显示格式做了标记,由于缺乏针对数据内容的标签,其数据的表现格式 和数据内容糅合在一起。h 删l 语言的这种特点决定了万维网上的信息内容很难被 机器所理解,从而制约了一些需要对万维网上的海量数据进行自动化处理应用的开 发。例如:搜索引擎很难在查准率和查全率这两方面都有所突破,检索结果只是和 搜索关键字在语法上相匹配的页面集合,一方面造成大量内容相关的页面的遗漏, 而另外一方面又返回了太多不相关页面;一些对万维网页面内容的提取程序只能针 对特定站点的固定格式,从事先设定好的标签中提取信息,如果站点的格式稍有变 化,内容提取程序也需要做相应的调整。虽然近年来人们在自然语言处理( n l p ) 、 机器学习等领域做出了大量的努力,提出了基于概率统计、向量空间等多种方法来 增强机器对文本信息的理解能力,但其最终的处理效果还不够理想。从上述分析可 知:由于当前广泛使用的h t m l 存在诸多的弊端,因此为了充分发挥万维网海量数 8 郑删大学颈j :学位论文基于语义弩托b 的智耱嵇意检索系统母 梵 据存储的优势,就需要以一种枫器可识别和理解的规范化格式交换w c b 资源信息。 遥年来窭褒鹃万维瓣薪耪;壤露扩震标记语言e x e 瓤s 壤e 醒a f k 珏p 如n g 珏a g c , x m l ) 最大的特点猩于用户可以根据需要制订能够反映数据内容的标签,实现数据 内容和数据表现方式的分离。x m l 及其相关的技术使传缆万维网上的信息内容, 葳嚣囊久澜菱转兔瑟淘诗算穰静隆动薤瑾迈爨了嚣常重要酶一步。嚣囱诗算橇鸯动 处理的前提是机器w 以理解数据的内容,或者说能理解描述具体数据内辑的概念信 息。程人类的思维中,对某个事物的理解意味着能够将这个事物与其它所熟知的事 穆联系起来,可敬遴_ 过一些藤予裰念静缝台寒对蓊事耱避行瓣释,秀辘器薅穰念蠡冬 理解魁指机器能够执行一些相关的概念查询、概念细化和概念泛化等操作。在t i m b 锄e f s 。h e 对万维网的发展展凝中指出:下一代万维网就是一个由大嫩机器可以 理解黪数据掰穆成豹一个分布式懿俸系缝稳,在这个体系缭稳中,数舞之闻酶关系 通过器种术语来表达,这些术语之间又形成一种错综复杂的网状联系,计算机能够 通过这些术语获得数据的含义,并且可以在形式化语义联裘的基础上,实行逻辑推 理揉佟,歇纛使褥计算梳麓完藏大量的鑫魂鲶瑾工作。 , 2 2 语义万维网的概念 为了改善当代万维网信息不利于计算机融渤处理的现状,万维网的创始久t i m b e m 材舢k e 于1 9 9 8 年提出了有关下一代万饿网的构想1 1 7 k 一语义万维网 ( s e m 黼娃cw 秘。谗义万缝网是一个梦想:翅勰w 痨土豹数缮通过男一秘不翅子现 在的方式描述和链按,使这些数据不仅能以各种灵活的方式屣现出来,墩能被不同 的应用程序所自动处理、综合、麓用。在语义万维网中,网页中所蕴含的语义信息 毙毽计算极宠或大罄分豹耋动纯怒理工终,镄翅软释我理獠窍透过霹夏中豹语义可 以为用户完成复杂的旅行计划制定等任务,即从当前“机器可阅读”的万维网扩展 为“机器可理解”的语义万维网。 弧擞强。f s k e 著没舂绘爨港义万维疆教严格数学定义,只是在翻港代万维网 的对比中,给出了如下的描述:谱义万维网并不是一个从凭到有、孤立发展的万维 网,而是对当前万缵网的延伸和扩展,语义万维网上的信息具有定义良好的含义, 9 郑州a 学硕上学位论文 基于语义w e b 的智能信息检索系统研究 计算机能根据概念的定义声明和逻辑推理规则发现资源对象的含义,使得机- 机之间 以及人机之间都能够更有效地合作处理;在语义力- 维网中定义和链接的数据能被各 种不同的应用以更为有效的方式查询、重用和集成。总结起来,语义万维网具有以 下几个显著特征: 卜 文档对象v s 现实世界对象:语义万维网不仅是一个存储文档对象集合 ( 如网页、图片、视频音频等) 的网络,它更是一个描述现实世界对象资 源关系的网络。例如语义万维网能描述如图2 1 中的人物e r i cm i l l e f 、w 3 c 语义网活动、w 3 c 组织和都柏林城市等现实世界对象。 人可读v s 机器可读:图2 1 中描述了一个有关“e r i cm i l l e f ”的资源对象, 从其和其它资源之间的关系可以得出:“e r i cm i l l e r ”并不是一个平凡的字 符串,其表示的是一个i d 为“e r i cm i l l e r ”的人。因此,和当代万维网相 比较,语义万维网的另一个显著特征就是其包含了更多机器可阅读和理解 的语义信息。 h t m i _ 和语义万维网的关系:万维网作为世界上最大的信息储藏所,其中 蕴含的信息量超过世界上任何一个图书馆,在这一点上,r m l 功不可没, 正是通过h 刚l 中的超链接,才得以将世界上的各种信息资源链接在一 起。但丰富多彩的现实世界中还存在着各种复杂的关联关系,这就要求语 义万维网不仅要能反映资源之间的超链接关系,而且还应能描述资源对象 之间的丰富而又复杂的关联关系( 如图2 1 中的居住、作者、类型等关系) , 对这种复杂关联关系的描述正是语义万维网的优势所在。 根据上面的描述,人们可以给语义万维网下这样的定义:语义万维网就是机器 可以理解数据含义的下一代万维网,其上的“语义”信息蕴含在各资源节点的逻辑 联系中。 从语义力维网的发展起源来看,语义万维网是人工智能领域和互联网技术相互 结合的产物。人工智能领域中的知识工程研究从孤立的知识库系统逐渐发展到基于 i n t r a n e t 、e x t r a n e t 的信息系统集成,最后扩展到整个i n t 锄e t ,在这个研究过程中, 逐渐加深了对知识表示和推理的认识,并总结出了一些新的描述和推理方法。另一 方面,万维网经过十几年的发展,积累的海量数据需要一种新的、机器可以自动完 1 0 郑州大学硕上学位论文 基于语义w e b 的智能信息检索系统研究 成的方式来处理和管理。因此,当两个领域的积累都比较成熟,而且有了需求,就 必然会走向结合。 o r o f 穗n km i i n o l 曩 图2 1 有关e r i cm i e r 的语义网片断 f 远2 1as e g m e n to f t h es e m n t i c 、e bp e n a i n i n g1 0e f i cm i l l e r 语义万维网建立的基础,是知识的概念化和形式化以及相应的逻辑推理,它和 人工智能有着深厚的渊源关系。因此,许多分析都需要从人工智能领域的角度来考 察。但是由于两者的应用环境不同,还存在着一些差异。例如:从人工智能的逻辑 学派和认知学派的观点来看,知识与概念化是人工智能的核心。传统的人工智能系 统,要求共同遵守一些公共概念的完全一致的定义,并且一般都有它们各自狭义的、 特有的用于信息推理的规则集合。尽管数据能够从一个系统转换到另一系统,但由 于系统间的推理规则通常以完全不同的形式存在,而致使一个系统的规则不能为其 他系统所重用。从这一点上来看,传统的人工智能系统是一种集中、孤立( 专有) 的系统。同样,语义万维网也是以知识的概念化表示为基础展开的。语义万维网中 的知识,就是一系列有关资源对象的建模描述,资源是一个非常广泛的概念,它可 以是网站、网页、甚至网页的某一个部分的内容,通过采用某种形式化的符号表达 式对资源之间的关系进行刻画。 万维网的本质特性便是其广泛性和全球性。超文本链接的威力在于“任何事物 之间都可以相链接”。因此,语义万维网和传统的人工智能系统存在本质的不同, 蝴嗽 矿。棚 仲 p 郑州人学硕士学位论文 基于语义w 曲的智能信息检索系统研究 它本身要符合万维网的分散性和通用性。知识的表示本身可能是由众多的独立团体 或个人,以各种各样的方式来提供,而这些知识却又要求能够被各种各样的应用实 现共同理解,并且在一定的逻辑规则的指导下进行推理。所以语义万维网上的知识 具有创建上的分散性,同时又具有应用上的通用性。这是语义万维网和传统的人工 智能系统的一个非常重要的区别。 2 3 语义万维网的组成 2 3 1 语义万维网体系结构 信息资源根据其所处层次的不同,可以被划分成不同的阶或者势,其中现实世 界中未经加工处理的信息属于零阶,在整个信息层次结构中处于最底层;网页资源 信息处在第一阶;在对h r m l 页面经过初次加工之后,所获取的网页标引或索引信 息处在第二阶;有关信息资源对象的元数据或模式信息则是属于第三阶的信息;而 逻辑推理、真值证明等信息理应拥有更高的阶值,在信息层次结构中,阶值越低的 信息越具体详实,较适合于人为处理;阶值越高的信息其抽象程度越高,则更适合 于机器的自动化处理。当代万维网上的信息是杂乱的、无序的( 或者说是非矢量的) , 将数据内容和表现形式混在一起,其中不同“阶”的信息没有被区别对待,这就导 致了人们在信息使用上的困难。因此,语义万维网首要解决的问题就是建立起合理 的信息层次结构,使其上面的信息是结构良好且有序的。 t i mb e m e r s - k e 在x m l 2 0 0 0 大会上描述了语义万维网的基本体系结构( 如图 2 2 所示) 【1 8 j ,在本节的剩余部分中,将对语义万维网的层次结构做一个详尽的介 绍。 郑州人学硕士学位论文 基于语义w 曲的智能信息检索系统研究 图2 2 语义万维网层次结构图 f i g 2 2ac a k em 0 d e lo ft h es e m t i cw e b 2 3 2u r i 和u n i c o d e ( 编码层) w e b 环境下的各应用之间不可避免地需要相互通信,直接或间接地以机器可读 的格式传递信息。这些信息中很大一部分是对w e b 上资源的描述,因此,首先应 该以明确的方式来标识这些资源对象。语义万维网采用统一资源标识符 u r i ( u n i f 0 彻r e s o u r c ei d e n t i f i e r ) 来标识资源及其属性,u r i 是一个i n t e m e t 标准, 记载于r f c 2 3 9 6 中。它和万维网常用的统一资源定位符u r l ( u n i f o 咖r e s o u r c e l o c a t o r ) 以及统一资源名称u r n ( u i f o i l l lr e s o 眦en a m e ) 1 1 9 】的区别在于u r i 能表 示所有可以字符串作为标识符的资源信息,它既能表示网络可达的资源,又能描述 网络不可达的资源,u r l 和u r n 都是u r i 的子集。另外,由于语义万维网的最终 目的是要构建一个全球信息的网络,在这个网络上应能涵盖各种语言和文字的信息 资源,所以它采用u n i c o d e 作为字符的编码解决方案。这一层位于语义万维网中的 最底层,是整个语义万维网的基石,它成功地解决了万维网上资源的定位和跨地区 字符编码格式的问题。 郑卅i 大学硕士学位论文 基于语义w 曲的智能信息检索系统研究 2 3 3x m l 、n a m e s p a c e 和x m ls c h e m a ( 语法层) 说起当代互联网的蓬勃发展,h t m l 的确立下了赫赫战功。可是,h t m l 在 制定之初就蕴藏了许多危机,随着万维网的不断发展,这些危机不但没有减弱,反 而越来越突出,甚至已然成为制约h t m l 继续发展的障碍。归纳起来,h t m l 语 言主要存在以下几个方面的问题: 卜数据内容和数据表示不分,这是h 删l 最大的问题所在。同样的数据值可 能存在多种不同的显示风格,这就导致了形式各异的h 刑l 描述,使得阻 数据内容为目标的搜索引擎难以有效的开展工作; 卜 h t m l 内部的结构性和条理性较差。由于 r r m l 在制定之初,并没有对 其语法结构做出严格的规定,加之各种浏览器的纵容,导致现在即便是那 些所见即所得工具自动生成的h t m l 文件,可能在语法上也会错误百出, 这就使搜索引擎很难根据规范的h 刑l 语法来分析和提取网页信息; h t m l 的标签固定僵化,用户不能自行扩展,导致很多的特殊信息无法表 示,这就使得h t m l 很难满足信息共享最大化的要求。 源于对h 聊l 语言现存问题的分析,人们在语义万维网发展之初,就决定将 x m l 作为其语法层。和m m l 一样,x m l ( e x t e n s i b l em a r k l l pl 丑n g i l a g e ) 也是一 种置标语言,都属于s g m l 的子语言集。但x m l 最大的特点在于它是种可扩展 的( e x t e n s i b l e ) 置标语言,它并不像h t m l 那样,提供一组事先定义好的标签, 而只是提供了一个标准,根据这个标准,用户可以根据实际需要定义自己的置标 语言,并为你的这个置标语言规定它特有的一套标签。准确的说,x m l 是一种源 置标语言,它允许你根据它所提供的规则,制定各种各样的置标语言,并可以通过 文档类型定义( d a t at y p ed e f i n i t i o n ,d t d ) 或x m ls c h e m a 来约束这些标签的内 部组织结构。但另一方面,由于x m l 标签可以由用户自行定制,这样就可能会造 成标签命名冲突的情况,为了解决这个问题,w 3 c 的x m l 小组制定了有关命名空 间( n a m e s p a c e ) 的标准【2 0 【2 1 i 。例如:用户可队声明如下 标签定义: 它表明a u t h o r 这个标签是在k 所代表的n a m e s p a c e :h t t p :f o o b a r c o m x m l 1 4 郑州大学硕士学位论文 基于语义w 曲的智能信息检索系统研究 c u s t o m e r d t d 中详细声明的。这样即使其他人也自定义了a u t h o r 标签,只要它们的 n a m e s d a c e 不同,也不会造成命名冲突。因此,这一层通过x m l 的特性,实现了 文档对自身结构的描述,实现了跨应用的语法互操作层,这是传统的h t m l 语言所 无法完成的。但有一点值得注意, 这个标签对人来说很容易理解,但是对 计算机而言,x m l 中的 标签和h t m l 中的 标签并没有本质上的区 别,因为计算机并不能真正理解 标签的含义。也就是说,x m l 是底层的数 据交换格式,它只是解决了文档内容的次序、结构等语法上的问题,并没有解决文 档内容的语义、联系等问题。对标签具体含义的定义和互操作需要交给语义万维网 的上层去解决。 2 3 4l m f 和r d fs c h e m a ( 元数据层) x m l 提供了w e b 数据编码的语法依据,而r d f ( r e s o u r c ed e s c r i p t i o n f 姗e w o r 则规定了相关资源的语义描述框架。正如其名,r d f 并不是一种新的语 言,而是一个开放的元数据描述框架,它属于语义网络中的元数据层。在r d f 资源 描述框架中主要涉及到以下三个概念f 2 2 】1 2 3 j : 卜 资源( r e s o u r c c ) :资源泛指可通过u r i 标识的任何事物,包括:网络可 达资源( 如一份电子文档、一个图片、一个w c b 服务等) ,和网络不可达 资源,如具体的物理对象( 人、公司、在图书馆装订成册的书籍等) 和抽 象概念实体( 作者) 等; 卜 特性( p r o p e r t y ) ;特性是描述某个资源的性质、特征、属性或关系; 陈述( s t a t e m e n t ) :陈述是有关具体资源对象特性的具体描述,通常可用 形如 的三元组来描述,其中s 表示一个待描述的资源对象、p 表示该资源的特定方面或刻面( f a c e t ) ,o 则表示该资源s 在特性p 上的 取值,o 可以是其它的资源对象也可以是平凡文字,如字符串等。 任何复杂的系统都可以通过合理的分解操作,简化成一组三元组( 或陈述) 集 合。r d f 是基于这一思想的:被描述的事物( r e s o u r c e ) 具有一些属性( p r o p e n i e s ) , 而这些属性各有其值( v a l u e s ) ,资源可以通过枚举该资源的相关属性及属性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论