（计算机软件与理论专业论文）基于语义web的智能信息检索系统研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：75 大小：2.18MB 积分：0 举报 版权申诉

（计算机软件与理论专业论文）基于语义web的智能信息检索系统研究.pdf_第2页

（计算机软件与理论专业论文）基于语义web的智能信息检索系统研究.pdf_第3页

（计算机软件与理论专业论文）基于语义web的智能信息检索系统研究.pdf_第4页

（计算机软件与理论专业论文）基于语义web的智能信息检索系统研究.pdf_第5页

已阅读5页，还剩70页未读，继续免费阅读

（计算机软件与理论专业论文）基于语义web的智能信息检索系统研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

郑州大学硕上学位论文基于语义，c b 的智能信息检索系统研究摘要传统信息检索方式下，由于信息资源缺少统一的语义描述，用户难以查找到与实际需求相关的资源，难以实现信息资源的语义共享。如何使被管理信息资源具有应用程序可以理解的含义，并根据信息资源所具有的领域知识，实现信息资源的语义检索，提高数字化信息资源的利用率，这些问题是信息检索领域所面临的挑战。语义万维网( s e m a n t i cw e b ) 是万维网的发明人t i mb e m e r s - k e 倡导的下一代万维网，旨在赋予万维网上所有资源唯一的标识，并在资源之间建立起机器可处理的各类语义联系。语义万维网是对当代万维网的扩展和延伸，能够以一种明确的、形式化的方式来表示信息资源，提高异构系统之间的互操作性，促进知识共享。本文通过对传统信息检索的基本原理、技术及工具、信息检索发展现状等方面的分析研究，结合万维网的具体特点，提出了基于语义万维网的语义信息检索体系框架，详细描述了语义信息检索系统c a t a s e a r c h 的设计思想和检索流程，并对系统模型的合理性进行了论证。本文对语义信息检索系统中所涉及的若干关键技术进行了深入的分析研究，提出了有效的解决方案，为c a t a s e a r c h 实验系统的顺利实施奠定了良好的基础，这些关键技术主要包括：领域本体建模、目标文档的获取、语义路径分级和检索结果排序。最后本文在理论分析的基础上，开发了基于语义网的化学信息检索实验系统 c a t a s e a r c h ，实现了其中一些基本的功能，该系统以物理化学领域的催化剂为检索对象，构建了相应的领域本体。通过将各种信息资源向知识本体层映射和语义推理处理，可以充分发掘各资源之间蕴含的关联关系，从而在根本上解决了检索中资源对象语义信息缺乏的问题，满足用户对资源对象语义检索的需求。本系统实现了相对比较复杂的语义检索，提供了语义推理的功能。这些功能都是传统的基于关键字的检索方式所难以实现的，并在实验中验证了c a t a s e a r c h 系统模型的可行性。关键词：语义力i 维网、领域本体、信息检索，语义检索郑州大学硕士学位论文基于语义w 曲的智能信息检索系统研究 a b s t r a c t a c c o r d i n gt o t r a d i t i o n a li n f o 咖a t i o nr e t r i e v a lp a t t e m ，t h ei n f b 姗a t i o nl a c k sa u n i f o 皿s e m 卸t i cd e s c r i p t i o n ni sh a r df o fu s e r t of i n dm o r er e l e v a n ti n f o m a t i o na n dt o f e a l i z et h es e m a n t i cs h a r ei r ii n f o m a t j o nr e s o u r c e h o wt oa s s i g nt h em a n a g e dr e s o u r c e am a c h i n eu n d c r s t a n d a b l em e a n i n gs oa st of j n dw h a tu s e r sr e a u yn e e d ，a n dh o wt o r e a l i z et h es e m a n t i cs e a r c h i n gb ym e a n so ft h ed o m a i nk i l o w l e d g e ，a r cc h a l l e n g i n gt a s k s f o ri n f b m a t i o nr e t r i e v a l s e m 锄t i cw 曲i st h en e x tg e e r a t i o nw e b ，w h i c hi sa d v o c a t e db yt i mb e m e r s k e w h oi saf o u n d e ro ft h ew e b i ns e m a n t i cw e b ，e v e r yr e s 叫r c eh 踮u n i q u ei d e n t i f ：i e r a l l d t h e r ea r ea uo fs e m a i l t i cr e l a t i o 璐b e t w e e nr e s o u r c e s t h es e m a n t j cw e bi sa ne x t e n s i o n o fc i l r r e n tw e bi nw h i c hi n f o 珊a t i o ni sg i v e nw e l l d e f i n e dm e a i i i n ga n dm a k ec o m p u t e r s a n dp e o p l ew o r ki nc o o p e r a t i o n h a v ea n a l ) r z e dt h ep r i i l d p l e ，t e c l l n o l o g y ，t o o la n df e a t l l r eo ft r a d i t i o n a lr e t r i e v a l si n w c b ，t h ep a p e rp m p o s e saf r a m e w o r ko fi n t e l l i g e n tr e t r i e v e 一“c a t a s e a r c h ”b a s e do ns e m a n t i cw e b na l s od e s c r i b e sd e s i 印i d e aa n dp r o c e s so ft h ej t e l l i g e n ti n f b m a t i o nf c t r i c v a ls y s t e mi nd e t a i l ，a n dp m v e si nt h e o r yt h ev a l i d i t yo ft h e 仃棚e w o r k a i m sa tk e yt e c h n j q u e so fs e m a n t i cr e t r i e v es y s t e m ，t h ep a p e rg i v e so l l rs o l u t i o n s w h i c he s t a b l i s ht h et h e o r yb 踮i sf o ri m p l e m e n to fc a t a s e a r c hs y s t e m n e s ek e y t e c l u l i q u e si c l u d ed o m a i no n t o l o g yc o n s t m c t i o n ，i f 0 咖a t i o nr e s o u r c ec o l l e c t i o n ，s e m 粕t i ci n f e r e n c e ，a n ds o no f f e t r i e v er e s u l ts e t b a s e d0 no u rt h e o r y 锄a l y s i s ，w ed e v e l o p e das e m a n t i ci n f o 咖a t i o ns e a r c hs y s t e n 一 c a t a s e a r c h t h es y s t e ms e l e c t si n f o r i a t i o n sr e l a l e dt oc a t a l y s td o m a i na se x p e r i m e n t o b j e c t s ，a n db u i l d sr e l a t e dd o m a i no t o l o g y c o m p a r e dw i t ht r a d i t i o n a lk e yw o r d sm a t c - h i n gr c 啊e v a is y s t e m ，t h es y s t e mc a n 矗n dm ej n t e m a lr e l a t i o n s h i pa m o l 培f c s o u f c e s ，a 1 1 d r e p r e s e n tu s e rm o r er e l e v a n tr e s o u r c em r o u g ht h em a p p i n gf r o mr e s o u r c el a y e rt o o n t o l o g yl a y e ra n dt t l es e m a n t i ci n f c r e n c ep r o c e s s w h a t sm o r e ，t h es y s t e mc a nr e a l i z e s o m ec o m p l i c a t el 【n o w l e d g eq u e r ya n dv a l u e a d d e ds e 九，i c e i ta l s op m v e st h ec o 玎e c t n e s s o fc a t a s e a r c hs y s t e mi np r a c t i c e k e y w o r d s ： s e m a n t i cw e b ，d o m a i no n t o l o g y ，i l l t e l l i g e n ti n f o 珊a t i 咖r e t r i e v e ， s e m a n t j cr e t r i e v e i i 郑重声明 y9 7 诣6 本人的学位论文是在导师指导下独立撰写并完成的，学位论文没有剽窃、抄袭等违反学术道德、学术规范的侵权行为，否则，本人愿意承担由此产生的一切法律责任和法律后果，特此郑重声明。日 0 1 叫挫月一争 k 年嗽以者怍文沦位学郏蛾大学硪_ = 学往论文莲子语义酗静智髓嚣爨捡索系统臻究第一章引言 1 1 阎题的提出及研究意义 l 。l 。l 阁题的提氆信息资源、物质资源和能缀资源构成现代社会经济发展的三大支被，有效的获取信息资源已成为推动社会发展和企业进步的重要力量。广义的信息梭索是指将倍感按一定懿方式缌织积存诺莛潦，：莠根撂售爨震户兹嚣要技窭套关痿惑豹过程 ( j n f o m a t i o ns t o r a 馨e 锄dr e t f i e v a l ) 。狭义的信息检索则仪指从信息集合中找出所需信息的过程，相当于人们常说的信息查询( i n f 0 珊a t i o ns e a r c h ) 。信息集合是指有缀绞瓣售惠整终，它霹鞋是数糖痒熬全部遗泶，还可苏怒菜圈套镑l | 芟溅豹全部文献资料，当然也可以是通过h t e m e t 发布的备炎信息集合【。万维网是一个巨大的信息资源痒，它的迅速发展和广泛使用已使人们足不出户矮黢麴天下太事。餐发表在稀掌杂恚1 9 9 9 年7 嚣懿文拳w 要b 绥惠瓣霹谚藏性估计，1 9 9 9 年全球网页总黛超过8 亿，有效数据超避9 t ，并且仍以每4 个月翻一番的速度增长。一方面，万维网为用户提供了一个开放的信息共享淤源平台，相对予传统弱越 l l 式傣惑系统露蠢，久霞戆滋爨捷翡速度纛全臻范围笈掺秘共享蕊惑资源；但另一方丽，随着信息燃的高速增长，同样也引发了“信息迷航”和“信息过载”等诸多问题，人们发现要在这个变化多端又鱼龙混杂的信息海洋中，找寻有俊镶懿售惠并不怒一律容易瓣每。嚣蘧，妥楚分发龚万臻瓣律隽全球臻慧共享平台的瓯大优势，就必须解决如何有效的访问万维网上信息资源的问题。 l 。l 。2 研究意义 “知识就是力嫩”，本世纪以来，人类进行信息生产的能力高速增长，据估计， 7 0 年代以来全世界每年出版图书5 0 万种以上、期刊1 0 万羊巾以上、专利约5 0 万件、科技报告约9 万孛、会谈文献擒多万篱、产晶样本5 0 多万耱，每年发表瓣零车技论文憨数：i 琏5 0 0 万篇，并摄指数式增长，真可谓信息浩如烟海，如何从这浩如烟海的信息中找出魇需信息，就成为信息检索的重任1 2 】。郑州大学硕士学位论文基于谱义、e b 的智月信息榆索系统研究 “楼惠获取魏不对等决定了经济、政治发鼹的不平赞”，对于个入、巍家、企业乃黧一个民族、豳家而言，谁能掌握信息的主动权，藏麓在现代竞争中的处于有铡地位。信息检索技术能帮助人们从浩瀚的数据中抽取出对用户有用的信息，能极大静节省了用户熬爨淘嚣闽。调粪数提显示，鞫翦有6 8 2 的入经常使熙搜索引擎，它怒目前仅次予融予自# 侔的网络应用；另蠢4 l 的入通邋搜索引擎遴入购物网站， 8 4 6 的新网站怒通过搜索引擎被发现。同时，科学证明，搜索引擎是未知状态下发现有效信惠的疑有效方式i 3 1 。这些数据怒以表明，先避豹信息检索技术对于嬲疑和商业用户来说，都是极具实用价值的。信息检索作为信息学领域中最活跃的研究分支之一，其涉及到多学科领域的交叉囊于筝，主要包撰：信息豹缀织、存糖，索弓l ，异矮数攥源豹集成秘人工智戆等技术，信息检索技术的研究与发戚和这些相关领域的发展麓患息相关的，同样的，对新烈智能信息检索技术的研究也能推动相关科研领域的发展。因此，智能信息检索技零毳；究还具煮较褰数学豢璎谂意义。 1 2 国内外研究现状及分析 l 。2 。l 痿惠检索磺究现状信息检索( h l f o n n a t i o nr e l r i e v a l ) ，通常指文本信息检索，包括信息的存储、组织、表现、查询、存取等备个方面，其核心为文本信息的索引和梭索，起源于图书锖瓣参考咨询帮交攘素霉l 王佟，簸1 9 毽缎下半时善宠开始发震，至世纪年代，索引和检索成已为图书馆独立的工具和用户服务项目。从发展阶段上滑，信息检索经历了手工检索、计算机检索到目前网络他、智能化检索等多个阶段。目前，信息检索已经发震到瓣络纯静徐毅。信息检索鲍对象簌相对瓣 i l 、稳定一敬、由独立数据麟集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的w e b 内容；信息检索的用户也由原来的情报专娥人员扩展到饿括商务人员、管理人员、教繇学生、各专她入士等在雨静普通大众。互联网技术对信息的传播方式带来了瓯大的变化，也明显地促进了信息检索技术的发展和应用，一大批搜索弓| 擎产品也随之诞生，为网民提供了快遮信息获取翻 2 郑州大学硕士学位论文基于语义w e b 的智能倍息检索系统研究网络信恩导航工具。从某种程魔上可以说，网络信息检索代表了当代信息检索的发展方向，所竣，本文也将瓣络储怠检索作为主臻的研究对象。搜索引擎按照一定的策略在互联刚中搜集朔发现倦息，并对信息进行理解、提取、组缓和处理，为用户提供梭索服务，从而熙到信息导航的目的。 f 1 ) 搜索引攀的工俘原理包括如下3 个过程：一是在甄联网中发现、搜集网页信息。利用能够从互联网上鑫秀收集瓣页戆s 燕d e f 系统程黪，耋动涛霹互联鼹，并沿着餐舞疆趸孛煞爨鸯獯l 链接行迮，重复这一过程，把爬过的所有网页资源收集起来，本阶段也可以通过人手工枝条来完成；二蔻对所搜集静信惑避行提取秘缀级，并建立信息綮弓| 库。卣分析索引系统程序对收集回来的网页进行分析，根据一定的特征提取算法提取网页资源对象的特征信息，主要包括网页u r l 、编码类型、硪丽内容包含的关键词、关键词位置、生成时闻、大小、与其它网页的链接关系等元数据信息；三楚根据资源对象的索引信息，进行信息检索和检索结果集排序等操作；信息检索程序根据用户输入豹查谗关键谗，欤索譬l 数据露中抉逮缎出稿美售意对象，势瓣捡窭鹣缝采提供多种排序操作，最终将排序后的结果返回【4 】 5 】【6 】。国疆索弓| 擎的分类按照信息搜集方法和服务提供方式的不同，搜索引擎系统可以分为三大类：机器入搜索引擎、哥录式搜索弓| 攀和元搜索引擎翻l s l 翻。卜r o b o l 搜索引擎由一个m b o t ( 也称之为s p i d e r ，w e bc r a w l e r ) 程序根据某种策略自动地在互联网中援集帮发现售惑，著垮翔b o l 程黪搜集劐熬霹贾信息热入到搜索数握瘁中，撰怒户赢询。r o b o t 搜索引擎【妇3 个部分组成：m b o t 程序、索引生成器和检索程序。r o b o t 程序会怒蘩访嗣互联鞫，对一意范霭内靛网站遴葶亍裣索，一量发瑷薪豹内容倍怠或新的网淤，它会自动提取这些内容和网蜒e 信息，并添加至资源信息库中。索引嫩成器则为掰搜集的资源信惠建立索g f 项，潋方便蠲户检索信息。为了能反映出掰页的更新情况，f o b o t 搜索引擎一般需要餍期性的访问以翦搜集过的网页，及时更薪索弓i 信息库，这是蒸于r o b o t 的搜索引擎的一个重蒙特征f l l 】。 r o b o l 搜索弓l 擎懿伐点是僖患量大、更瑟及对、无濡人工予颈，缺点是返鹾过郑州天举矮士学位垒文基于谱义豫b 静智艟镕惠检索系统疆究多的光关信息，需簧用户对结果集进行再次的筛选。这类搜索引擎的熟型代表有： a l l a v i s | a 、n o 难酶穗珏疹| 、e x e i l e 、囊受辩呔、轴襄耄。氆i 、& 撼零、谤s 、c ；g l e ，其中n h e m l i g h t 和舢t a v i s a 所索引的w e b 页面都已经超过了1 0 0 ，0 0 蛾0 0 0 。卜目录式搜索引擎与蒸予f o 弱l 秘搜索引擎爨不霹翡是，嚣袋索式搜索弓| 擎戆索零l 数豢撵是蠢编目人员通过手工方式建立起来的，例如y a h 0 0 ，0 p e nd i r e c t o r y ，s n a p 等，目录式搜索引攀首先需要建立一个目录分类标准和目蒙结构，编目人员在访问了某个w 曲站点纛嚣簧绘塞该薅瘫懿稳关攘述，并禳撂懿燕静内容蠢瞧溪将其爨类至一个预定义好的目录中。目录式搜索引擎大多能提供目聚浏览和直接检索两种服务方式。该类搜索弓l 擎由于在信息检索中加入了人的智能，所以信息分类准确、导航质量高，缺点悬嚣妥授天大羹熬久力、维护鳖夫、信爨怒量较少窝爨赣困难。这受援索萼擎懿代表怒：y a h 0 0 、轴o k s m a n 、0 p e nd i ”c t o r y 、g og u i d e 簿【1 2 】【1 3 】。卜元搜索引擎这类援索零l 擎窝瑷土舔静穰索雩l 擎蕊王僚方式不司，它并没寿鑫悉靛数据，露是将用户提交的焱询请求送到多个独立的搜索引擎上去搜索，并对各搜索引擎返回的检索结果集中她理，以统一的格式提供给用户，因此搿元搜索引擎之称。它的主要精力菝在提离梭索速度、智亿处理检索缩莱、提供个毪纯匏检索瑕势鞋及改善用户检索界面等方面。元搜索引擎最大的特点就是其本身并不能提供信息检索服务，面需溪依赖于其它搜索引擎来莛同完成检索谯务。和其它两种检索系统相比较，元搜索孳擎返霞结暴鞠信惠量更大、更全，酸煮楚不艟够充分发挥繇使丽援索弓l 擎鹃功能，也需要用户做更进一步的筛选。现行比较著名的元搜索引擎有m e t a c h w l c r ，。 s a v v s e a 础l 等，其中m e t a c a w l 群能同时检索y 越1 0 0 ，l c i o l 【s m a n ，a l t a v i s t a 等九个主要的搜索弓| 擎l 翊。 1 - 2 2 问题分析佟统信惠检索技术都是基予关键字静语法匹配和全文稔索技术，烹簧借韵予霹录、索引和关键词等方法来实现。此技术的优点是简单、快捷和容易实现，但其存在五个较突出的阏题。 4 郑州犬举硕：e 学键论文旗于语义w e b 的智能信息检索第统研究 “忠实表达”问题。出于在大多数情况下用户很难通过简单的几个关键词来忠实的表达其检索需要，因此表达困难也就导致了检索旗量难近人意：卜无法准确搦示信息的实质内容。嗣题名、文摘或全文中出现的关键词标识文献的内容，常常不能充分搦示源信息的实质内涵；检索算法采鼯谣形嚣嚣磊；诞义莲羝。一义多运( 麓义键) 巍象戆骜滚存在，导致了传统信息检索的查金率难以保证，而一词多义( 多义词) 现象则导致在梭索结栗中包含大量静蠢效信意，使得查瀣率遣榷竣满足，在西文串，述存在有词形变化的问题( 如时态、单复数等) 。这些问题都怒基于关键词匹配的检索算法中所冤法避兔的； “词汇孤岛”阕题。在人黪大脑中，概念并不是孤立存在黪，它总怒与其它概念之间存在各种各样的联系，真魑这种联系造就了五彩缤纷的现实世界。嚣农健统臻惑检索审，这；黪摄念之溺夔语义联系楚摄难攫述鳃。卜片顾追求高的查全率导致了检索结果的数熬过于庞大，用户根本没有时间帮精力处璞检索弼虢所有绥采。总之，在信息快速增长的今天，传统信息检索机制由于缺乏必骚的智能性，难以适应时代发展的需簧。 1 3 本文研究的目的和研究内容 i 3 。l 臻究爱静造成上述问题的实质在于传统傣息检索算法所用的只是基于语法层颟上字、词的简单匹配，而缺乏对知识的表示、处理和理解释能力。解决运姥问题的关键在于搬信息捡索从基予关键字瓣语法题配提嚣至基予知识( 或土下文) 层面的语义匹配。因此，本文的主要研究目的就是希望通过赋予待检索储息的具体语义内涵，来解决传统蔫怒检索j 霪程中爨存在豹润题，璐提裹捡索豹矮爨和效率。 l 。3 2 磅巍蠹容从上面的阐述可知，“语义信息检索”研究具有很高的学术理论意义和非常广 5 郑州大学硕士学位论文基于语义w 曲的智能信息检索系统研究阔的应用前景。本文在前人的研究基础上，主要做了以下几个方面的工作：卜深入分析了各种传统信息检索技术的优缺点；卜针对传统信息检索技术的缺点和不足，提出将语义万维网技术应用到信息检索中的新思想，建立了语义信息检索的体系结构；深入研究了语义信息检索系统模型中所涉及的本体建模、语义推理和检索结果排序等关键技术；卜以催化剂领域为背景，利用p r o 惦酣、j e n aa p i 和其它工具，开发实现了基于语义网络的语义信息检索实验系统c a t a s e a r c h ；卜并对c a t a s e 缸c h 系统的性能进行了具体的分析试验和评价，针对系统中一些尚存的问题提出了改进的思路和方法。 1 4 本文的章节安排全文共由六章组成。第一章为信息检索技术综述。其中阐述了信息检索的概念、目的和意义，简要介绍了评价信息检索技术的性能参数，并着重分析了目前国内外信息检索技术的研究现状，针对信息检索领域尚存的问题，提出了本文的研究目的和研究内容；第二章介绍了语义万维网的框架体系。文中本部分着重研究了万维网的信息组织结构、发展历程以及下一代万维网的相关概念、组成和体系结构，并简要介绍了构建在语义万维网之上的应用。本文在第三章提出了一种本体建模的改进方法，并对这种方法进行了详细的分析。第四章对语义信息检索系统模型中所涉及的关键技术进行了深刻的研究，包括文档的结构化处理、对用户查询需求的语义匹配扩展和分析结果的排序处理等，并提出了有效的解决方案。在前面两章的基础上，本文第五章提出了基于语义万维网的语义信息检索技术。介绍了语义信息检索系统c a t a s e a r c h 的设计思想、体系结构框架模型和信息检索的系统流程，以催化剂领域的信息文档为检索对象，初步实现了语义信息检索实验系统的一些基本功能，实现过程包括提出问题、需求分析、系统结构设计、开发工具的选取，详细介绍了在系统构造中所涉及的本体组织结构， r d f 数据的存储并通过具体的推理检索分析和与基于关键字的信息检索系统的比较郑髑大学。擘链论文基于语义融b 瓣餐憨荣息捡素藏统研究充分展示了语义信息梭索系统性能的优越性。了j 藏一步的分析。第六枣是对全文王终夔总结。箕中指出著分辑了系统孛强不完善豹部分，对将来的工作进行了展颦。 7 郑州大学硕士学位论文基于语义w 曲的智能信息检索系统研究第二章语义网( s e m a n t i cw e b ) 概述 2 1 引言 i n t e m e t 和万维网的快速发展，给人类带来了极大的信息繁荣。但至今为止，万维网上的大部分信息都是服务于人这一智能体的，很难直接由计算机自动处理。然而随着万维网上信息量的迅猛增长，w e b 信息处理的主体人已逐渐难以适应时代的变化和发展，因此对当前网页信息组织结构进行规范化处理，将其扩展成能为计算机使用和处理的文档，以便于把人类从纷繁复杂的信息查询、处理和推理等劳动中解脱出来，这就成了时代的呼唤。万维网创始人t j mb e m e r s - k e 将万维网的演化分为两个阶段【1 6 1 ，在第一个阶段，力i 维网应该是一个有利于人们进行信息交换和相互合作的强大工具。万维网在最初十年的发展里，基本上实现了这个目标：它以h 刑l 页面的方式向人提供了大量可阅读的信息；在第二个阶段，这种合作应该延伸到机器。也就是说，连接到万维网上的机器也应该能够分析万维网上的所有数据包括内容、链接以及人与机器之间的交互。如何实现万维网的第二阶段目标正是目前学术界研究的热点。实现这一目标的难点在于传统的h t m l 语言本身的固有缺陷，这种标记语言的标签集只是对内容的显示格式做了标记，由于缺乏针对数据内容的标签，其数据的表现格式和数据内容糅合在一起。h 删l 语言的这种特点决定了万维网上的信息内容很难被机器所理解，从而制约了一些需要对万维网上的海量数据进行自动化处理应用的开发。例如：搜索引擎很难在查准率和查全率这两方面都有所突破，检索结果只是和搜索关键字在语法上相匹配的页面集合，一方面造成大量内容相关的页面的遗漏，而另外一方面又返回了太多不相关页面；一些对万维网页面内容的提取程序只能针对特定站点的固定格式，从事先设定好的标签中提取信息，如果站点的格式稍有变化，内容提取程序也需要做相应的调整。虽然近年来人们在自然语言处理( n l p ) 、机器学习等领域做出了大量的努力，提出了基于概率统计、向量空间等多种方法来增强机器对文本信息的理解能力，但其最终的处理效果还不够理想。从上述分析可知：由于当前广泛使用的h t m l 存在诸多的弊端，因此为了充分发挥万维网海量数 8 郑删大学颈j ：学位论文基于语义弩托b 的智耱嵇意检索系统母梵据存储的优势，就需要以一种枫器可识别和理解的规范化格式交换w c b 资源信息。遥年来窭褒鹃万维瓣薪耪；壤露扩震标记语言e x e 瓤s 壤e 醒a f k 珏p 如n g 珏a g c ， x m l ) 最大的特点猩于用户可以根据需要制订能够反映数据内容的标签，实现数据内容和数据表现方式的分离。x m l 及其相关的技术使传缆万维网上的信息内容，葳嚣囊久澜菱转兔瑟淘诗算穰静隆动薤瑾迈爨了嚣常重要酶一步。嚣囱诗算橇鸯动处理的前提是机器w 以理解数据的内容，或者说能理解描述具体数据内辑的概念信息。程人类的思维中，对某个事物的理解意味着能够将这个事物与其它所熟知的事穆联系起来，可敬遴_ 过一些藤予裰念静缝台寒对蓊事耱避行瓣释，秀辘器薅穰念蠡冬理解魁指机器能够执行一些相关的概念查询、概念细化和概念泛化等操作。在t i m b 锄e f s 。h e 对万维网的发展展凝中指出：下一代万维网就是一个由大嫩机器可以理解黪数据掰穆成豹一个分布式懿俸系缝稳，在这个体系缭稳中，数舞之闻酶关系通过器种术语来表达，这些术语之间又形成一种错综复杂的网状联系，计算机能够通过这些术语获得数据的含义，并且可以在形式化语义联裘的基础上，实行逻辑推理揉佟，歇纛使褥计算梳麓完藏大量的鑫魂鲶瑾工作。， 2 2 语义万维网的概念为了改善当代万维网信息不利于计算机融渤处理的现状，万维网的创始久t i m b e m 材舢k e 于1 9 9 8 年提出了有关下一代万饿网的构想1 1 7 k 一语义万维网 ( s e m 黼娃cw 秘。谗义万缝网是一个梦想：翅勰w 痨土豹数缮通过男一秘不翅子现在的方式描述和链按，使这些数据不仅能以各种灵活的方式屣现出来，墩能被不同的应用程序所自动处理、综合、麓用。在语义万维网中，网页中所蕴含的语义信息毙毽计算极宠或大罄分豹耋动纯怒理工终，镄翅软释我理獠窍透过霹夏中豹语义可以为用户完成复杂的旅行计划制定等任务，即从当前“机器可阅读”的万维网扩展为“机器可理解”的语义万维网。弧擞强。f s k e 著没舂绘爨港义万维疆教严格数学定义，只是在翻港代万维网的对比中，给出了如下的描述：谱义万维网并不是一个从凭到有、孤立发展的万维网，而是对当前万缵网的延伸和扩展，语义万维网上的信息具有定义良好的含义， 9 郑州a 学硕上学位论文基于语义w e b 的智能信息检索系统研究计算机能根据概念的定义声明和逻辑推理规则发现资源对象的含义，使得机- 机之间以及人机之间都能够更有效地合作处理；在语义力- 维网中定义和链接的数据能被各种不同的应用以更为有效的方式查询、重用和集成。总结起来，语义万维网具有以下几个显著特征：卜文档对象v s 现实世界对象：语义万维网不仅是一个存储文档对象集合 ( 如网页、图片、视频音频等) 的网络，它更是一个描述现实世界对象资源关系的网络。例如语义万维网能描述如图2 1 中的人物e r i cm i l l e f 、w 3 c 语义网活动、w 3 c 组织和都柏林城市等现实世界对象。人可读v s 机器可读：图2 1 中描述了一个有关“e r i cm i l l e f ”的资源对象，从其和其它资源之间的关系可以得出：“e r i cm i l l e r ”并不是一个平凡的字符串，其表示的是一个i d 为“e r i cm i l l e r ”的人。因此，和当代万维网相比较，语义万维网的另一个显著特征就是其包含了更多机器可阅读和理解的语义信息。 h t m i _ 和语义万维网的关系：万维网作为世界上最大的信息储藏所，其中蕴含的信息量超过世界上任何一个图书馆，在这一点上，r m l 功不可没，正是通过h 刚l 中的超链接，才得以将世界上的各种信息资源链接在一起。但丰富多彩的现实世界中还存在着各种复杂的关联关系，这就要求语义万维网不仅要能反映资源之间的超链接关系，而且还应能描述资源对象之间的丰富而又复杂的关联关系( 如图2 1 中的居住、作者、类型等关系) ，对这种复杂关联关系的描述正是语义万维网的优势所在。根据上面的描述，人们可以给语义万维网下这样的定义：语义万维网就是机器可以理解数据含义的下一代万维网，其上的“语义”信息蕴含在各资源节点的逻辑联系中。从语义力维网的发展起源来看，语义万维网是人工智能领域和互联网技术相互结合的产物。人工智能领域中的知识工程研究从孤立的知识库系统逐渐发展到基于 i n t r a n e t 、e x t r a n e t 的信息系统集成，最后扩展到整个i n t 锄e t ，在这个研究过程中，逐渐加深了对知识表示和推理的认识，并总结出了一些新的描述和推理方法。另一方面，万维网经过十几年的发展，积累的海量数据需要一种新的、机器可以自动完 1 0 郑州大学硕上学位论文基于语义w e b 的智能信息检索系统研究成的方式来处理和管理。因此，当两个领域的积累都比较成熟，而且有了需求，就必然会走向结合。 o r o f 穗n km i i n o l 曩图2 1 有关e r i cm i e r 的语义网片断 f 远2 1as e g m e n to f t h es e m n t i c 、e bp e n a i n i n g1 0e f i cm i l l e r 语义万维网建立的基础，是知识的概念化和形式化以及相应的逻辑推理，它和人工智能有着深厚的渊源关系。因此，许多分析都需要从人工智能领域的角度来考察。但是由于两者的应用环境不同，还存在着一些差异。例如：从人工智能的逻辑学派和认知学派的观点来看，知识与概念化是人工智能的核心。传统的人工智能系统，要求共同遵守一些公共概念的完全一致的定义，并且一般都有它们各自狭义的、特有的用于信息推理的规则集合。尽管数据能够从一个系统转换到另一系统，但由于系统间的推理规则通常以完全不同的形式存在，而致使一个系统的规则不能为其他系统所重用。从这一点上来看，传统的人工智能系统是一种集中、孤立( 专有) 的系统。同样，语义万维网也是以知识的概念化表示为基础展开的。语义万维网中的知识，就是一系列有关资源对象的建模描述，资源是一个非常广泛的概念，它可以是网站、网页、甚至网页的某一个部分的内容，通过采用某种形式化的符号表达式对资源之间的关系进行刻画。万维网的本质特性便是其广泛性和全球性。超文本链接的威力在于“任何事物之间都可以相链接”。因此，语义万维网和传统的人工智能系统存在本质的不同，蝴嗽矿。棚仲 p 郑州人学硕士学位论文基于语义w 曲的智能信息检索系统研究它本身要符合万维网的分散性和通用性。知识的表示本身可能是由众多的独立团体或个人，以各种各样的方式来提供，而这些知识却又要求能够被各种各样的应用实现共同理解，并且在一定的逻辑规则的指导下进行推理。所以语义万维网上的知识具有创建上的分散性，同时又具有应用上的通用性。这是语义万维网和传统的人工智能系统的一个非常重要的区别。 2 3 语义万维网的组成 2 3 1 语义万维网体系结构信息资源根据其所处层次的不同，可以被划分成不同的阶或者势，其中现实世界中未经加工处理的信息属于零阶，在整个信息层次结构中处于最底层；网页资源信息处在第一阶；在对h r m l 页面经过初次加工之后，所获取的网页标引或索引信息处在第二阶；有关信息资源对象的元数据或模式信息则是属于第三阶的信息；而逻辑推理、真值证明等信息理应拥有更高的阶值，在信息层次结构中，阶值越低的信息越具体详实，较适合于人为处理；阶值越高的信息其抽象程度越高，则更适合于机器的自动化处理。当代万维网上的信息是杂乱的、无序的( 或者说是非矢量的) ，将数据内容和表现形式混在一起，其中不同“阶”的信息没有被区别对待，这就导致了人们在信息使用上的困难。因此，语义万维网首要解决的问题就是建立起合理的信息层次结构，使其上面的信息是结构良好且有序的。 t i mb e m e r s - k e 在x m l 2 0 0 0 大会上描述了语义万维网的基本体系结构( 如图 2 2 所示) 【1 8 j ，在本节的剩余部分中，将对语义万维网的层次结构做一个详尽的介绍。郑州人学硕士学位论文基于语义w 曲的智能信息检索系统研究图2 2 语义万维网层次结构图 f i g 2 2ac a k em 0 d e lo ft h es e m t i cw e b 2 3 2u r i 和u n i c o d e ( 编码层) w e b 环境下的各应用之间不可避免地需要相互通信，直接或间接地以机器可读的格式传递信息。这些信息中很大一部分是对w e b 上资源的描述，因此，首先应该以明确的方式来标识这些资源对象。语义万维网采用统一资源标识符 u r i ( u n i f 0 彻r e s o u r c ei d e n t i f i e r ) 来标识资源及其属性，u r i 是一个i n t e m e t 标准，记载于r f c 2 3 9 6 中。它和万维网常用的统一资源定位符u r l ( u n i f o 咖r e s o u r c e l o c a t o r ) 以及统一资源名称u r n ( u i f o i l l lr e s o 眦en a m e ) 1 1 9 】的区别在于u r i 能表示所有可以字符串作为标识符的资源信息，它既能表示网络可达的资源，又能描述网络不可达的资源，u r l 和u r n 都是u r i 的子集。另外，由于语义万维网的最终目的是要构建一个全球信息的网络，在这个网络上应能涵盖各种语言和文字的信息资源，所以它采用u n i c o d e 作为字符的编码解决方案。这一层位于语义万维网中的最底层，是整个语义万维网的基石，它成功地解决了万维网上资源的定位和跨地区字符编码格式的问题。郑卅i 大学硕士学位论文基于语义w 曲的智能信息检索系统研究 2 3 3x m l 、n a m e s p a c e 和x m ls c h e m a ( 语法层) 说起当代互联网的蓬勃发展，h t m l 的确立下了赫赫战功。可是，h t m l 在制定之初就蕴藏了许多危机，随着万维网的不断发展，这些危机不但没有减弱，反而越来越突出，甚至已然成为制约h t m l 继续发展的障碍。归纳起来，h t m l 语言主要存在以下几个方面的问题：卜数据内容和数据表示不分，这是h 删l 最大的问题所在。同样的数据值可能存在多种不同的显示风格，这就导致了形式各异的h 刑l 描述，使得阻数据内容为目标的搜索引擎难以有效的开展工作；卜 h t m l 内部的结构性和条理性较差。由于 r r m l 在制定之初，并没有对其语法结构做出严格的规定，加之各种浏览器的纵容，导致现在即便是那些所见即所得工具自动生成的h t m l 文件，可能在语法上也会错误百出，这就使搜索引擎很难根据规范的h 刑l 语法来分析和提取网页信息； h t m l 的标签固定僵化，用户不能自行扩展，导致很多的特殊信息无法表示，这就使得h t m l 很难满足信息共享最大化的要求。源于对h 聊l 语言现存问题的分析，人们在语义万维网发展之初，就决定将 x m l 作为其语法层。和m m l 一样，x m l ( e x t e n s i b l em a r k l l pl 丑n g i l a g e ) 也是一种置标语言，都属于s g m l 的子语言集。但x m l 最大的特点在于它是种可扩展的( e x t e n s i b l e ) 置标语言，它并不像h t m l 那样，提供一组事先定义好的标签，而只是提供了一个标准，根据这个标准，用户可以根据实际需要定义自己的置标语言，并为你的这个置标语言规定它特有的一套标签。准确的说，x m l 是一种源置标语言，它允许你根据它所提供的规则，制定各种各样的置标语言，并可以通过文档类型定义( d a t at y p ed e f i n i t i o n ，d t d ) 或x m ls c h e m a 来约束这些标签的内部组织结构。但另一方面，由于x m l 标签可以由用户自行定制，这样就可能会造成标签命名冲突的情况，为了解决这个问题，w 3 c 的x m l 小组制定了有关命名空间( n a m e s p a c e ) 的标准【2 0 【2 1 i 。例如：用户可队声明如下标签定义：它表明a u t h o r 这个标签是在k 所代表的n a m e s p a c e ：h t t p ：f o o b a r c o m x m l 1 4 郑州大学硕士学位论文基于语义w 曲的智能信息检索系统研究 c u s t o m e r d t d 中详细声明的。这样即使其他人也自定义了a u t h o r 标签，只要它们的 n a m e s d a c e 不同，也不会造成命名冲突。因此，这一层通过x m l 的特性，实现了文档对自身结构的描述，实现了跨应用的语法互操作层，这是传统的h t m l 语言所无法完成的。但有一点值得注意，这个标签对人来说很容易理解，但是对计算机而言，x m l 中的标签和h t m l 中的标签并没有本质上的区别，因为计算机并不能真正理解标签的含义。也就是说，x m l 是底层的数据交换格式，它只是解决了文档内容的次序、结构等语法上的问题，并没有解决文档内容的语义、联系等问题。对标签具体含义的定义和互操作需要交给语义万维网的上层去解决。 2 3 4l m f 和r d fs c h e m a ( 元数据层) x m l 提供了w e b 数据编码的语法依据，而r d f ( r e s o u r c ed e s c r i p t i o n f 姗e w o r 则规定了相关资源的语义描述框架。正如其名，r d f 并不是一种新的语言，而是一个开放的元数据描述框架，它属于语义网络中的元数据层。在r d f 资源描述框架中主要涉及到以下三个概念f 2 2 】1 2 3 j ：卜资源( r e s o u r c c ) ：资源泛指可通过u r i 标识的任何事物，包括：网络可达资源( 如一份电子文档、一个图片、一个w c b 服务等) ，和网络不可达资源，如具体的物理对象( 人、公司、在图书馆装订成册的书籍等) 和抽象概念实体( 作者) 等；卜特性( p r o p e r t y ) ；特性是描述某个资源的性质、特征、属性或关系；陈述( s t a t e m e n t ) ：陈述是有关具体资源对象特性的具体描述，通常可用形如的三元组来描述，其中s 表示一个待描述的资源对象、p 表示该资源的特定方面或刻面( f a c e t ) ，o 则表示该资源s 在特性p 上的取值，o 可以是其它的资源对象也可以是平凡文字，如字符串等。任何复杂的系统都可以通过合理的分解操作，简化成一组三元组( 或陈述) 集合。r d f 是基于这一思想的：被描述的事物( r e s o u r c e ) 具有一些属性( p r o p e n i e s ) ，而这些属性各有其值( v a l u e s ) ，资源可以通过枚举该资源的相关属性及属性

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）基于语义web的智能信息检索系统研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）基于语义web的智能信息检索系统研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档