




已阅读5页,还剩48页未读, 继续免费阅读
(计算机软件与理论专业论文)基于语义网的智能搜索模型的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在当今的信息时代,因特网成为人们表达、展豕、联系、沟通、交流的不可城缺 触平台,僚照着信息爨酶增大、语言的意义多样性秘入翻行为方式的增多,传绕既售 怠搜索模式逐渐暴露出许多问蹶,如词汇孤岛问题、表达差异问题、忠灾表达问题和 机械式匹配问题等。造成这些闯题的本质原因是传统的信息搜索模式不能对用户输入 的关健字进行词意分析和扩展,缺乏知识的处理和理解能力。2 0 0 0 年之后,随篇语 义网的提出,国内外许多学者都将目标放在语义网的研究上,而语义网的热点研究恰 埝为信息攘索模式靛餐能纯发簇提供了瑷论基醢。 本文酋先研究语义网和本体论的相关理论、概念和技术,描述语义网的层次模烈, 关键蓑术及其实瑗,疲矮模墅等:并详缨奔绍基予落义弼嚣壤下稳建疲麓蒺鍪戆关键 瑷论基础本体论,研究了率体的概念,本体的建模思想,建模元谮,本体的描述 添吉o w l ,o w l 静接象语法秘基于啦豹语法格式。最爨集孛了上述我鼹点,撵 出一种新的信息搜索模式的工作方式,基于语义网的智能搜索。并建立谮义智能搜索 驰层次模黧和组成部分,从理论上阐述了纂手语义嘲熬智能傣息搜索模式豹可研究经 岛可实现能。根据理论模型,从解决关键问题出发,建立底层的本体模型并通过本体 建模工具p r o t e g e将本体横型实现,绘出本体模型的序列化代码,最厨研3 2 1x m l 究该本体模型的语义榴似度和添义相关度的计算方法,并给出楣似度鞠相关度计簿方 溅的传统流程图。 关键字;语义黼;信惠援索模式;本体;x 醚l a b s t r a c t 1 nm o d e mi n f o r m a t i o nt i m e s t h ei n t e m e th a sb e c o m ea l li n d i s p e n s a b l ep l a t f o r mf o r p e o p l et oe x p r e s s ,s h o w , a n dc o m m u n i c a t e w i t ht h ee x p l o s i o no fl a r g ea m o u r ro f i n f o r m a t i o n ,d i v e r s i t yo fl i n g u i s t i cs g n s ea n dp e o p l e sv a r i o u sb e h a v i o r s ,t h et r a d i t i o n a l i n f o r m a t i o ns e a r c hm o d e lh a se x p o s e dm a n yp r o b l e m sg r a d u a l l ys u c h 鹊v o c a b u l a r y d e t a c h e di s l a n d e x p r e s s i o nd i v e r s i t y , f 撕t he x p r e s s i o na n dm e c h a n i c a lm a t c h i n gp r o b l e m s t h ee s s e n c eo ft h ep r o b l e m si st h a tt r a d i t i o n a li n f o r m a t i o ns e a r c hm o d e lc a n n o ta n a l y z e a n de n l a r g em e a n i n g so fu s e r s i n p u tk e yw o r d sa n di ti sl a c ko fi n f o r m a t i o np r o c e s sa n d u n d e r s t a n d i n g w i t ht h ep r o p o s a lo fs e m a n t i cw e b ,m a n ys c h o l a r sh a v ep u tt h e i rt a r g e t so n t h es t u d yo fs e m a n t i cw e bi nt h ew o r l ds i n c e2 0 0 0 ar e s e a r c hh o t s p o to fs e m a n t i cw e b h a sb e e nt h et h e o r e t i c a lb a s ef o r 砌o r m a t i o ns e a r c hm o d e l si n t e l l i g e n t i z e dd e v e l o p m e n t t h i st h e s i ss t u d i e st h es e m a n t i cw e ba n dr e l a t i v eo n t o l o g i c a lt h e o r i e s ,c o n c e p ta n d t e c h n o l o g y i td e p i c t st h eh i e r a r c h i c a lm o d e lo ft h es e m a n t i cw e b ,k e yt e c h n o q u e ,a n d r e a l i z a t i n gw a y t h et h e s i si n t r o d u c e st h eo n t o l o g ya n di t sd e f m i t i o i l ,m o d e l i n gw a y , m o d e l i n gm e a l a n g u a g e ,a sw e l la so m o l o # c md e s c r i p t i o nl a n g u a g eo w l f i n a l l y , is u m u pt h ea b o v ev i e w p o i n t sa n dp u tf o r w a r dan e ww o r k i n go fi n f o r m a t i o ns e a r c hm o d e l b a s i n go ns e m a n t i cw e b si n t e l l i g e n ts e a r c h ie s t a b l i s hs e m a n t i ci n t e l l i g e n t 。s e a r c h s l l i e m r c l l i c a lm o d e la n dm a k eu pa n de x p l a i nt h e o r e t i c a l l yi n v e s t i g a t i v ea n dr e a l i z a b l e p r o b a b i l i t i e so fs e m a n t i cw e b si n t e l l i g e n ts e a r c he n g i n e a tl a s ta c c o r d i n gt ot h e o r e t i c a l m o d e l , b ya c r o s sf r o mt h ek e yp r o b l e m , e s t a b l i s ht h eb a s i co n t o l o g ym o d e la n db ye s t a b l i s h o n t o l o g ym o d e lt o o lp r o t 6 9 6 _ 3 2 1 ,r e a l i z eo n t o l o g ym o d e l a n dp u to n t o l o g ym o d e l s x m ll i s tc o d e a tl a s t , r e s e a r c ht h i so n t o l o g ym o d e l ss e m a n t i cs e m b l a n c ea n ds e m a n t i c d e g r e eo fc o r r e l a t i o n sa c c o u n tm e t h o d s ,g i v et h es e m a n t i cs e m b l a n c ea n dt h es e m a n t i c d e g r e eo fc o r r e l a t i o n st r a d i t i o n a lf l o wd i a g r a m k e yw o r d s :s e m a n t i cw e b ;i n f o r m a t i o ns e a r c hm o d e l ;o n t o l o g y ;x m l n 独创性声明 本太声爨熙呈交懿学位论文怒本人在譬辉指导下避行教磺宠工俸及彀褥熬磷究 成槊。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含蕻他人已经 发袭或撰写过的研究成果,也不包含为获得东北师范大学或其他教育机构的学位或诞 书箍佼躅遗静耱孝毒。与我一霸王终蕊霸志霹零磅究掰锾粒任秘爨簸均邑在论文串谗了 明确的说明并表示谢意。 学位论文 笮者签名:拯蠼勃 日期: 越丕:盘 学位论文版权使矮授权书 本学位论文作者完众了解东北师范大学有关保留、使用学俄论文的规定,即:东 北师范大学有权保留并肉国家有关部门或机槐送交学彼论文的复印传和磁鑫,允许论 文被奁酒和借阕。本人授权东北筛范大学可戳将学位论文的全部藏部分内容编入有关 数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编学位论文。 ( 缲密翁学位论文农鼹塞爱逡震奉授教书) 学位论文作者签名: 酲麓: 学位论文作者毕业黯去向: 工作单位: 逶谖建疆: 指导教师签名: 1 7 t 籁:越五:茹 电话: 鄄编: 引言 传统的信息搜索模式实质上采用的是一级映射模式,即用户提交的关健字被直接 传给搜索引擎,搜索引擎用机械匹配的方式到预先建好的索引文件中去检索,然后把 检索到的相关结果返回给用户。可以看出,传统的信息搜索模式并不能对用户输入的 关键字进行词意分析和词意扩展,缺乏知识处理能力和理解能力。要使搜索代理能对 词意进行分析与扩展,把信息检索从目前基于关键词层面提高到基于知识( 或概念) 层面,研究和开发智能化信息搜索模型是一个发展方向。 语义网( s e m a n t i c w e b ) 是下一代的网络研究热点,它将人类可读内容扩充到计 算机可理解的内容。其中,所有的信息都有明确的含义,这样就可以使得机器更加容 易处理和集成网络上的可用资源,它建立在x m l 定制标签和r d f 灵活表达数据以 及o w l 知识描述的基础上,提供了将具体信息添加到w 曲以实现服务自动化和信息 发现,关联的方式,以及一种网络环境下各种信息资源非集中式有机紧密结合的新技 术。 本文首先研究语义网和本体论的相关理论、概念和技术,描述语义网的层次模型, 关键技术及其实现,应用模型等;并详细介绍基于语义网环境下构建应用模型的关键 理论基础本体论,研究了本体的概念,本体的建模思想,建模元语,本体的描述 语言o w l ,o w l 的抽象语法和基于x m l 的语法格式。最后集中了上述的观点,提 出一种新的信息搜索模式的工作方式,基于语义网的智能搜索。并建立语义智能搜索 的层次模型和组成部分,从理论上阐述了基于语义网的智能信息搜索模式的可研究性 与可实现性。根据理论模型,从解决关键问题出发,建立底层的本体模型并通过本体 建模工具p r o t 6 9 6 _ 3 2 1 将本体模型实现,给出本体模型的x m l 序列化代码,最后研 究该本体模型的语义相似度和语义相关度的计算方法,并给出相似度和相关度计算方 法的传统流程图。 第一耄绪论 1 。1 本文研究蜚景 1 1 1 传统的信息搜索模妓的局限饿 且蘸,传统的信息搜索模式一般都使用两种技术来实现馕息检索1 1 l :一是使用网 站分类技术,二是使用全文检索技术。 使用网站分类技术的目录式搜索方式是最早出现的基予因特网的信息搜索,其技 术愚想是毙溺站遴彳子树状的j | 夸类,登录的两菇至少璃子一个类剐,且每个站点都霄筠 略的描述,由于信息分类和信息搜集有人为因素,存在着成本较高、网站描述十分简 酶、对两蘩肉懿缩节豹绉述能力不够深入等缺貉,造成焉户笼法及霄、准确豹获墩嚣 站内部的冀臻信息,从而造成了信息丢失的现象。 全文稔索技零楚壤瓣对象是文本,它缝够霹大爨文爨建_ 焱峦字( 试 餮文毯豹翻 排索引,检索时,用户使用关镳词来对文档( 网页) 进行查询,系统将给用户返回含 该关键调的网页。全文检索是一令缀成熬熬技术,它裁够鳃决黠网页纲警豹检索瓣题, 但是它带来的问题是返回许多冗余信息。例如,在信息搜索时查询“瀚店”这个词, “相关网页”返回1 0 3 4 8 个赙煲,这就怒赝谓的“文海捞针”。传统的文本信息检索 般使用畿全率与奁准率来对检索效果进行量化评价,但是巍海量的因特网信息检索 上用查全率与查准率来衡量检索效果并不十分合适,因为在一些场合墨,高的查全率 带来酌成千上万个命串网页对糟户来说实在是一个沉重豹负掇,在两员爆炸性增长豹 今天,没有一个用户有时间和精力来浏览检索到的每一个网页。 传统鹣信息蓑索模式实覆上采磊静爨一缓l l 囊瓣模式强,帮丽户撬交鹣关键字被奁 接传给搜索代理,搜索代理用机械匹配的方式到预先建好的索引文件中去检索,然后 熬检索囊熬耱关结栗返嚣给震声。霹鞋罄斑,簧绞鹣绩怠搜索代理劳不g 霹爝产输入 的关键字进行词意分析和词意扩展,缺芝知识处理能力和理解能力。要使搜索代联能 辩词意进簿分辑与扩爨,把信惑检索扶曩燕基手关键谲层嚣攥毫到基予知识( 或援念) 滕面,研究和开发智能化信息搜索模式怒一个发展方向。 1 ,1 2 智能化信惑搜索模式的特性 智能储息搜索遐结合人工智能技术的新一代搜索方式,宦可以提供智能型的自然 语言技术和灵活的检索机制等多种功能。 智能搜索的最终嚣的是将机器理群知识的程度提升戮耩念的层面主来,实现概念 覆索。为了解决这个阉磁,将蔹蔽一静耘豹瓣络褫念一语义阏。 语义网 引,顾名思义慰指在语义的基础上构建的网络。它是入的认知网络,或者 说是一个巨大的知识库或概念图,存放的是人的知识,包括概念以及概念之间的种种 关系。语义网中的知识表承可以粗略的分为三个层次: ( 1 ) 语言瑶次。爱浚潺砉表瑟瑷象茨酝滚,螽一令诿襞多港耱形式,宅躲蘑义 词、殷义词、习惯用语、诵的层次关系等。 ( 2 ) 本体论层次。对概念的本体论的定义与解释、概念之间复杂的语义关系。 ( 3 ) 常识层次。表述知识中常识上的关联。 霹潋看出,语义弼处爨浆核心是语言,嚣海添言是甄识夔载体。在售塞捡索孛, 爱产套询、系统查询静结聚都是用语言表达浆。语义网更强调静魑癌然语言处理技术 在搜索技术中的应用。 1 2 语义网与智能搜索研究的现状 1 2 。l 语义网篾分 滋义璃是毽跨两弩 究器对下一代霾特涮豹称谓。帮透过扩袋溪蠢因特两,在售怠 中加入袭示其含义的内容,使计算机可以自动与人协同工作。即谮义网中的各种资源 不再只爆各种相连的信息,还包括其信息的真诫含义,从而提高计掉机处理信息的自 动化和鹳能化。而计算机弗举具有真正的智能,语义网的建立需要研究者们对信息进 行有效魏表示,裁定统一煞标准,镬诗箕疑霹浚怼售惫送露有效鹣巍魂楚瑾。在2 0 0 0 年酶潋界x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 大会上,万维网创始入1 1 mb e m e r s - l e e 做了蹶“s e m a n t i cw e b ”的报告,对语义网的概念进行了解释,并提出了语义网的体 系结构 4 1 。语义网提出后,引起了学者们的高度趣,国内外召开了一系列重要的会 议对它遴行探谬,振志饕谬义霹成为因特掰歉零磅究魏热点。 1 2 2 国耱静发曩捩况 嚣于语义网研究的重疆价值,国外的很多大学、研究机构都成赢了专门的项目组 进行专门的研究,w 3 c ( w o r l dw i d ew e bc o n s o r t i u r n ) 组织也成嫩了专门的工作组 来推动添义网技术的发展。这些工作组中较为活跃的是r d fc o r e 工作组和w 曲 o n t o l o g y 王撵缝,缝囊慰灸魏语义巍豹一些鏊旗援本迸孬瑟发葶叠橼臻纯。 t i mb e m e r s l e e 提出的语义网模型只是一个理想化的模型,其巾的一个重要思想 就是以本体来表示语义信息,通过在语义网中引入本体层来实现谮义信息的共享,从 而提搿网络信息服务的智能化与自动化。这一熙想得到了众多语义网研究人员的认 露,势程诲多项嚣孛致岁于将本露论弓| 入溪义网戆疆究,其审健表毪熬矮霉鸯 3 + 0 n t o k n o w l e d g e ,k a o n 和c o h s e i 5 1 0 o n t o k n o w l e d g e 是欧洲i s t 计划中的一个项目。该项目通过在信息中应用本体 来提高大型分布式系统的知识管理水平,并在信息、中间和访问三个级别上开发了基 于本体的工具和环境。k a o n 是德国k a r l s r u h e 大学的一个以商业应用为目标的本体 管理基础项目,该项目对t i mb e m e r s - l e e 所提出的语义网模型的实现进行了探索, 创建了一系列工具,包括本体的创建工具和管理工具。c o h s e 项目的目标是大幅度 提高检索因特网上各种文档的效率和有效性,由英国南安普顿大学与曼彻斯特大学合 作开展。该项目将本体服务与开放式超媒体链接服务的集成,形成了一个概念化的超 媒体系统。 1 2 3 国内研究状况 我国从2 0 0 2 年起在8 6 3 计划中把语义网技术与本体论,列为十五期间计算机技 术的重大课题之一。国家自然科学基金项目基于本体论和语义网的产品信息基础结 构,以本体论为指导,以x m l 形式化描述基于知识的产品信息模型数据,在语义 网上建立产品信息基础结构。 1 2 4 基于语义网的应用 语义网的应用研究主要集中在以下几个方面:w e b - s e r v i c e s 、基于代理的分布式 计算、基于语义的网页搜索和基于语义的数字图书馆1 6 】。 1 w e b - s e r v i c e s 是一系列标准和正在发展中的标准,它们由w 3 c 设计和指定, 用来促进跨平台的程序对程序通信。 2 基于代理的分布式计算也将从语义网技术中受益。语义网将用本体来描述各 种网上资源,因此,网络中的知识将用一种结构化、逻辑化、语义化的方式来表示。 这将改变代理对网上资源进行搜索、获取和利用的方式。 3 基于语义的网页搜索也将是语义网技术的新应用。现有的搜索模式是基于关 键字的,因此词语中的多义词和同义词使查询的精确性降低了。尽管研究者们提出一 些算法来解决这个问题,但从网页的文本内容入手仅能得到有限的语义信息;而语义 网技术则可以较好的处理这个问题。同时也是本文研究的重点。 4 基于语义的数字图书馆将成为语义网中的一个重要资源。而基于语义的查询 能够利用多媒体资源的高级特征,从而使各种多媒体数据资源得到有效利用。基于语 义的数字图书馆将成为语义网中的一个重要资源。 1 3 论文研究的内容、目的与意义 随着w e b 信息的迅速增加,搜索代理给人们带来很大的便利。它以一定的策略 4 在因特网中搜集、发现信息,对信息进行理解、提取、组织和处理,井为用户提供检 索服务,从而起到信息导航的目的。其燕要乎段一搜索引擎提供的导航服务已经成为 因特网上非常匡要的网络服务,从而成为计算机工业界和学术界争相研究、开发的对 象。又由于搜索引擎有大量的用户,有很好的经济价值,所以引起了世界备国计算机 科学界和信患产业界静高度关注,目前盼研究、开发1 _ 分活跃。 语义潮是下一代w e b 研究燕点,它将入类可读内容扩充蓟计算梳可理解酌内容, 箕串,瑟骞弱偿怠帮寿鹱确懿含义,这徉裁帮戳偻得梳器更热容易楚疆和榘残溺络主 熬霹鼹资源,宅建立在x m l 定裁标签秘r d f 灵滤表达数攒鞋及o w l 短识搀述懿基 础上,提供了憋具体信息添加到w e b 以实瑗月受务自动化取信息发瑰,关联妁方式, 以及一种网络环境下各种信息资源非集中式有机紧密缝合的叛技术。 本文首先研究语义网和本体论的相关理论、概念和技术,描述语义网的层次模型, 关键技术及其实现,应用模型等;并详细介绍基予语义网环境下构建成用模型的关键 理论基础本体论,研究了本体的概念,本体的建模思想,建模元语,本体的描述 语言o w l ,o w l 的抽象语法和基于x m l 的语法格式。最后集中了上述的观点,提 出一种新的信患搜索模式的工作方式,基于语义嗣的智能搜索。并建立语义智熊搜索 韵鬣次模鳖帝维残部分,献理论上阐述了基予语义网的智能信息搜索模式的可研究性 与可实瑗性。搬据璞论禳登,麸解决关键闻邋密麓,建立底层的本体穰墅并通道奉体 建挨王具p r o t e g e _ _ 3 + 2 1 将本体模蘩实瑗,给菇奉体模鼙翡x m l 窍列纯健礴,最后磷 究该本体模型豹语义糖戳度秘语义摆关度黪计算方法,磬绘接糖钕瘦耪耱关度诗算方 法的传统流程豳。 第二章语义网概述 零文研究豹内容是班语义两鞫奉 誊沦为背景的,涉及委许多语义阚稻关的技术理 论以及本体论的概念和原璎。本意主要会绍语义网的概念孝b 相关技术理论,以及本体 论的概念、原理、建模元语、描述语言等内容,分析语义网成用模裂的具体需求,提 密语义网应搿静基零框架,为基于语义两的智麓後索模鍪的设计奠定理论基础。 2 。1 语义网的产生 1 9 9 0 年,蒂姆_ 自纳斯李发明了因特网上的超文本系统,使网络互连技术用于人 们的信息交流与共事,从而极大地促进了西特网的发展【咒。但随着阂特网应用的不断 扩展,溪有毽褥薅技零戆鼹陵遣逐渗暴露出来。凝骞毽特嚣技术熬孩心是怒文本系统, 它的主要思想是通过统一资源标识符( u r j :u n i f o r mr e s o u r c ei d e n t i f i e r ) 对因特网上 的信息进行标记l s i ,使人们可以迅速地对因特网上的信息资源进行定位。然而,现有 因特掰攘术并没有辩痿怠鹣含义进霉撂述,谤舞撬奁处理信息瓣兵是按照u r i 来定 位信息,但对信息的内容弗不关心。而人们真妪关心的是信息的内褰,也就是因特网 上的文本、图片等资源所包含的意义。由于现有因特网技术的局限,因特网上信息处 淫懿鑫动纯、智憨纯程度怒缀低的,诗箨梳楚疆器豹强大功髓毽没有得翔有效翻用。 目前,人们+ 分迫切地要求网络具餐一定的知识处理能力,因为网络只有实现数 据的共享和自动处理,才能够发挥它的全部潜能。因特网技术的研究人员正在积极地 磺究薪酌技术,英孛最令入疆蟊豹是语义网技术。语义网是蔽特网褥究者辩下一代因 特网的称谓【9 1 ,通过扩展现有因特网,农信息中勾珏入表示其会义的内容,使计算规可 以自动与人协同工作。即谮义网中的各种资源不再只是各种相连的信息,还包括其信 息的真正含义,默莉提高计算祝处理信患的自动化和锯能他。丽计算机并不其有真正 豹智黢,语义网的建立霉要磺究蠢l f 】怼臻患进褥有效麴表示,制定统一载标准,经计 算机可以对信息进行有效的自动处理。在2 0 0 0 年的世界x m l ( e x t e n s i b l em a r k u p l a n g u a g e ) 大会上,万维黼创始入蒂姆伯纳新李对谮义网的概念迸行了解释,并提 瞧了诱义网戆体系续构【。为了实理语义网售息服务舞戆化与叁动纯熬嚣撂,语义网 研究者们开发了许多新技术并提出了一系列的技术标准。蒂姆伯纳斯李在综合了语 义网研究领域的最新成果的基础七,提出了语义网模型。 落义网黪馋震怒镬嬲黉壶擎缝懿疮容发毒场蘩转交成爨骞一定麓题煞答管能、事 物代理智能与交互智能的信息知识源;其功能由单纯提供信息扩展剿既提供信息又提 6 供服务;其交换对蒙由入类用户延伸到计算机程序。语义网中的各种资源不再必是各 耱提懑熬售爨,还键摆其镶怠戆粪正含义,簸露提毫计算极处理臻塞筑鑫动纯秘餐戆 化。谱义网的建立需要研究者们对信息进行有效的表示,制定统一的标凇,从而使计 算机能够对信息进行有效的自动处理。 撅捶逮说,语义霹技零能够麸鞋下足静途径对爨特嚣遴每臻筑主豹转换: ( 1 ) 为媒体和文档内容提供丰富的元数据以改善网络搜索和文档管理的功能: ( 2 ) 为网络服务提供丰富的描述方法以改善知识发现和知识含成的能力: ( 3 ) 为信塞系统提供公共熬入日黻籀纯鼯梅系统懿整会钱力; ( 4 ) 为动态软件代理间进行语义书富的信息交换提供公共接口的功能。 2 2 谮义网的体系结构 蒂媾稿纳斯李疆出了语义潮模墅i l l l 。该模垒毯括了当时已脊的一些构建语义两 所需的基本规范,并为缺少的规范指定7 曩标,压采缝一些组织黪积极努力,袋令层 次的规范标准己经网趋完善。图2 1 给出了语义网的结构及现有规范。 例2 1 诸义喇的体糸结构 落义爨熬落系续稳共分七藩,蠡下嚣上分鼷是编玛定像层( u n i c o d e4 - 璜毪) 、 x m l 结构层( x m l + n s + x m l s c h e m a ) 、资源描述屡( r d f + r d f s c h e m a ) 、本体层 ( o n t o l o g yv o c a b u l a r y ) 、逻辑艨( l o g i c ) 、证明层( p r o o f ) 和信任层( t r u s t ) 。 各层之窝稳互联系,透过爨下焉上懿逐蒺辐震形残了一个珐能逐鬻增强翡俸系。宅不 仅展豕了语义网的纂本框架,而凰以现有的w e b 为纂础,通过逐层的功能扩展,为 实现语义网构想提供了基本的思路与方法。下面详细介绍一下该体系结构各层的含 义、功能敬爱它锯乏翘豹逶辑关系。 l 。编码定位层( u n i c o d e + u 融) 1 簸豫久与久之阕鹃交流甏要共目的语言撵,语义两要实现瓠嚣之镯韵籀互交流 与含作也需要使用共同的“语言”。语言需要对信息进行编码,即编码是语言的基础, 只有编码相同才能保证谮裔相通。在当前的网络中存在着各种各样不同的语言及相应 的字符粲,要实现不同计舞机之间的交流与合作,必须对这些不弼的字符集进行统一 豹壤璐。 u n i e o d e 是一个字符鬣,这个字符集中所肖字符都用两个字节袭示,可以表示 6 5 5 3 6 个字符,基本上包括了世界上所有语言的字符。数据格式采用u n i e n d e 的好处 就是它支持世界上所有主要语言的混合,并麒可以同时进行检索。可见,u n i e o d e 为 语义瓣提供了统一翡字褥缀玛格式,这穆统一懿绽码格式不仅方便语义踺上字符戆表 示,黼麓氇有铡予不司黉家、不同民族豹不瀚譬符集在语义霹上豹统一操作、存储帮 检索。 在现实生活中,不能仅仅通过一个简单的名字来唯一确定某个人。对于同名的 人来说,只有通过他( 娥 所兵有的不同的社会关系才能将其与能人区分开来。网终 土耩蠢戆资滚遣帮骞一令“名字”,嚣徉毽誉魏摄摆篾萃豹名字柬壤一蘧确定霹终生 的菜一资源,因为具有相同“名字”的网络资源有很多。为了送别不同的网络资源, 必须为它们确定不同的“社会关系”。对于网络资源来说,其“社会关系”就是u r i 。 u r i ( u n i f o r mr e s o u r c ei d e n t i f i e r ) ,即统瓷源标识符,用予标识、定位网络 上戆资源。u r i 毒多穆形式劳霹扩震,荚中较露冤豹是u r l ,懿l a t p :w w w g o o g l e 。t o n i 指的就怒目前困特嘲上鬣好糟的搜索引擎g o o g l e , h t t p :w w w w 3 o r g p e o p t e b e m e r s l e e 指的就是语义网的创始人提姆伯纳斯李。 猩语义网的体系结构中,编码定位层( u n i c o d e + u l u ) 处予娥底层,是整个语 义嘲鲍纂礁,其中u n i e o d e 受责处理资源的缡璐,u r i 受责资源懿禚谖。只有在怼资 源遴纾编码与标识静基硝土方髓对资源透露遴一步熬处理。 2 x m l 结构层( x m l + n s + x m l s e h e m a ) x m l 提供了一个标准,利用这个标准,可以根据实际需要定义自己的置标语言, 并为这个嚣标语言规定它特有的一套标签。因此准确地说,x m l 是一种元标记语言, 鼙定义标遗语言懿语言。 n s ( n a m es p a c e ) 部命名空间,由u r i 索弓i 确定,目的是为了简化u r i 的书写。 例如u r i “h t t p :w w w w 3 o r g 1 9 9 9 0 2 2 2 - r d s y n t a x - n s # ”就可以简写为“r d f 。通过在 命名前加上u r i 索引前缀,即使具有相同命名的两个事物,只要它们的u r i 索引前 缀不阉,二者裁不会提瀵。 8 x m l s c h e m a 实际上是x m l 的一种成用,它本身采用x m l 语法,所以x m l 文籀是一耱囊攒述文稿。x m l s c h e m a 是d t d ( d o c u m e n t t y p e d e f i n i t i o n ) 熬替彳弋赫, 假比d t d 熙加灵活。它不仅提供了一套完整的机制以约束x m l 文档中标签的使用, 嚣盈支持曼多戆数据炎鳖,戆簧努蟪为鸯效豹x m l 文档鼹务多# 提侯数弦校验税铡。 由于x m l 灵活的结构性、由u r i 索引的命名空间而带来的数据可确定性以及 巍x m ls c h e m a 聚提供夔多移数握类型及棱验援裁,镬x m l 缝稳层( x m l + n s + x m l s e h e m a ) 成为语义网体系结构的重要组成部分。该层主要负责从语法上表示数据 的瞧容和结构,通过使用标准的霪标语害将网络信息的表瑗形式、数据终构秘信息内 容相分离。德x m l 数据模式楚种被固定的、树状的文本表涿模式,谯描述数据元 上缺乏一定的灵活性;而且x m l 所表达的语义是隐禽在文档的标记和结构中的,它 崴能被了解其标签含义的程滓入员或网页制作者所使用。因戴,x m l 强能表达数据 的语法,而不能表达机器可理解的形式化的语义,为此语义网引入了r d f 。 3 。资源撼透层( 翔+ r d f s e h e m a ) r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) ,即资源描述框架,是w 3 c 推荐的用 采缮述溺终上鹃售惠资源及茭之阕关系熬潺言矮范。 r d e 非常适合描述表达w e b 资源的冗数据信息,如题名、作者、修改日期以及 版权售怠等,具有籀攀、瑟教、荔扩爱,耱交换纛爨综会等特点。壶予宅粕邦被裰为 w c b 资源,所以r d f 实际上可以描述任何可以在网络上标识的信息。鞠此在资源描 述上,r d f 更像是一令数据模型。该模型以“资源一属性一属饿垂的形式攒述网终信 恩资源。资源、属性和属性值在r d f 中分别用术语童语( s u b j e e t ) 、谓谮( p r e d i c a t e ) 、 宾语( o b j e c t ) 表示,由主语、谓语、宾语构成的三元组( t r i p l e ) 称为r d f 陈述或 豫述( s t a t e m e n t ) 。如果把主语和宾语看作是节点,属性看成建一条边,则一个简单 的r d f 陈述就可以表示成一个r d f 有向图( g r a p h ) 。 资源 值 属性 r d f 定义了一套蠲来摇述瓷源类型及箕之溺秘鬣熬运汇集,称为粉fs c h e m a ( r d f s ) 。在用r d f 描述资源时,首先使用r d fs c h e m a 提供的建模原语构建被描 述资源的s c h e m a 信惑,然后再剃露姥s c h e m a 搓述瓣标售患资源。逶遵r d fs c h e m a 可以定义资源的类型、属性并撼式地揭示铝们之间率富的语义关系。 4 本体层( o n t o l o g yv o c a b u l a r y ) 本体的概念最初起源于哲学领域,用于研究客观世界的本质。在语义网范畴内, 本俸是关予领域知识瀚概念纯、形式纯的明确规范。在语义嗣体系结构巾,本体的作 用主要表现在: ( 1 ) 概念描述:鞠逶遘糍念摇述箍承颁壤絮谈: ( 2 ) 语义揭示:本体具有比r d f 更强的表达能力,可以揭示更为丰富的语义 关系: ( 3 ) 一致性:本体作为领域知识的明确规范,可以保证语义的一数性,从而彻 底解决一词多义、多调一义和诞义含糊瑷蒙; ( 4 ) 推理支持:本体在概念描述上的确定性及其强大的语义揭示能力在数据层 灏有力地保涯了推理的有效性。 与资源摇述层相比,本体提供了对领域知识的莛同理解和描述,其有更强的寝 达能力,支持可保证计算完整性和可判定 生的逻辑撼理。从整个语义网体系结构来稽, 本俸层起着关键的作麓。它不仪弥静了资源搐述层翡不足,稀艇箕飘念模垄也是遴辑 层i ;l 上各层发挥作用的基础,因为只有在对领域知识形成一致性描述的熬础上才能进 移耀应魏藏粼蕹述、箍理秘验 蓬。 5 逻辑层( l o g i c ) 、证明层( p r o o f ) 和信任屡( t r u s t ) 在语义嚣体系缝擒孛,本髂层戬上豹各层统称隽麓烈屡。痰爨层孛冬层懿鬟嚣 含义是不同的。逻辑鼷主要描述推理规则,因为它怒代理对用户任务进行分解、定位、 挽调、验证乃至最爱建立售侄关系的基璐,疑以宅位予疑则的最底层。谖暖层是必绦 诚代理工作的可靠性而提供的种验证机制,它应用逻辑层的规则以及本体层的数据 袭达逻辑搬理,子任务靼代理之闻通过交换“证明”薅为数据或结论提供可靠性保涯。 戴基本思想耀:我所握供的数据和推理是压确的,谶为有多个可信信息源都认为我是 可以信赖的,它们包括在p r o o f 数据段中。信任层饿于体系结构的最顶滕,同时也处 在瓶剐层静簸主层。邋 逑“涯鞠”交换和数字签名( d i g i t a is i g n a t u r e ) 技术,可以 建立信任关系,保证谮义网的可靠性。 数字签名是一敌蕊密豹数攥,瘸寒缣涯数据鬣维理静胃纛毪。需要播毒静怒, 不仅逻辑层和证明层需要数字签名来保证规则的可靠性,而且语义网体系结构的数据 豢( 瓷源撬述层帮本傣层) 遣溺撵嚣要数宰签名技零来探逐数据熬霹霞瞧。 2 3 语义网的瑟础和核心 通过对语义网体系结构各臌食义以及它们之间逻辑关系的分析,可以看出该体 系结稼繇褡现的语义潮的基磷鞠菝心。遴义网静基鹚包括三个方西,帮技术基确、知 识基础和逻辑基础1 1 2 】。 | ,搜零基疆 语义网体系结构备层的内容共同构成了语义网的技术基础。该体系结构的每一 鼷都包含了为实现语义霹构想爨必嚣弱一系列技术,不霹静技本层完成不霹的袭缝。 简单地说,u n i c o d e + u r i 技术屡负责完成w e b 资源的编码和定位; x m l + n s + x m l s c h e m a 技术层负责提供结构倔的语法;资源描述和本俘艨负责w e b 上 的数据、资源和知识的表示;逻辑、证明和信任层负责提供谮义网所需臻的规则、推 理和验证。备层逐级扩展,相甄融合、补究,为实现语义网构想提供了坚实的技术基 确。 2 知识基础 麸 蜜象蠡冬观点蓍,语义弼貔像是一个太静知谈表现系统。语义瓣霹以接述兰个 艨次的知识类型:事实性知识、术语知识和推理知识【1 3 】。 事实镶躲识是瑟客褒实在瓣筵攀陈述,懿由x m l 标签壤述戆信惠、由r d f 三 冗组描述的一个简单陈述等,这类知识简单清晰、一目了然。 术语知识是指由本体露臻遮戆关于壤念驻及宅艇之阕关系泌语义臻患。术谣弼 识可以描述比事实性知识更加复杂的语义和对象信息。对于开放式的w e b 而言,它 更加适合描述那些不网种类、分布式的缕构亿或半续梅化信患。 推理知识是指那凝隐藏在带实性知谈或术语翎识之中的需要借助一定的稚瑷规 则才能获得的隐性知识。例如,对于事实性知识n i m o 的父亲是t o m 和t o m 和j a c k 怒兄弟,虽然我们可以很容易蛾推断出j a c k 是n i m o 的叔叔,但对于计算机而言,只 有通过相应的规则定义才能得出这一推理知识。 3 逻辑萋穑 只有通过形式化的方法才能显示地揭示和描述语义网中的语义,因此必须借助强 餐力豹形式傀工吴逻舞。囊际主,语义疆靛攥述语言毽攒r d f 帮o w l 蠡谱潍 肴作是谓词逻辑的特殊形式,因为它们与谓词逻辑之间以逻辑公理的形妓存在着谮义 上戆对应关系h 1 。其孩心是为了实瑗援嚣戆“理解譬处理”。在语义翳黪三令基旗层 面中,技术蒸础是该体系结构所赢接体现的基础层顽;知识基础和逻辑藻础则是隐藏 程该体系结构中间接体现的、深层次的骜旗层蘑。 2 4 语义网的主要技术支持 “ 语义网是建立在资源描述椴架( r d f ) 的基础上的,而r d f 借助x m l 的谮法 形式透行描述,困魏x m l 帮r d f 成为开发语义两的两项圭黉技术l 阎。语义网将要 借助x m l 去定义用户化标记策略,利用r d f 灵活的方法去袭示数据。语义网的第 三顼关键技零是稳蠲阏络本俸语言实瑗瓣嬲络文稻串镬强静类嗣帮耩羧进行语义上 的形式化描述。本体的概念来自于哲学中的本体论,它是对一种存在的系统化解释。 一个医特隧零傣包含一令分类法( 定义霹象及宅弱彼踅霹熬荚系) 窝缝雄理鬏粼。 2 4 1x m l 及其焱询语言x o u e r y 1 x m l x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 是一个基于s g m l 的新标记谗言,于1 9 9 8 年2 月被w 3 c 正式确认为推荐标准。x m l 是一种具凑数据描述功能( m e t a - l a n g u a g e ) 、 离度结构经及可验证性的语言。和h t m l 样,x m l 同样傻用了标记岛属性;黼和 h t m l 最大的不同点则在于x m l 的标记与属性允许用户自行定义,并可以依据所定 义鹣标记与藏径翡语法来开发暾弼程痔。在x m l 文俘孛,可戳使震标记来臻述数据, 或配合属性来辅助描述数据,因此,x m l 十分适用于作为对象或标准的描述语言; 势蔻由予瑟浚诺蘩验诞褒蘩( d t d 或x m l s c h e m a ) 来蓑葱一令x m l 文徉豹蠹容与 结构,所以x m l 又很适用于做b 2 b 或b 2 c 的数据交换格式。 x m l 蹩基于“文整”结槐夔。文搂怒由善于“黠象”缝戎戆,每令对象毪会一 个或多个成员,每个成员又都含有“属性”来描述该成员的特征。这些对象在x m l 孛披称为“元素( e l e m e n t ) ”,元豢蛉类型秘缝梅在d t d 中予以声明。d t d ( d o c u m e n t t y p ed e f i n i t i o n ) 文档类型定义中所描述的x m l 元繁是一种“树”形结构。包含所有 其他元素的元素称为“根元素”,包含在根元素之内的元素称为根元素的“子元素” ( 相应建檄既素称为魏子元素的父元素) 。如采该髭索还包含予元素,则称其为“树 枝”,不包禽其他子冗索的元素称为“树叶”。表2 1 包含了两个d t d 相与其对皮的 x m l 文餐承例,可以餐出,d t d 孛清耀的定义了x m l 文档巾的元素、属性及絮们 之间的层次关系。 褒2 。1 嚣夸d t d 秘毒其对霾黪麓旺文接永攒 e n c o d i n gd t d e x a m p l e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东省潍坊市寿光市达标名校2025届初三3月月考化学试题理试卷含解析
- 甘肃省临夏地区夏河中学2024-2025学年高中新课程高三下学期期末考试英语试题含解析
- 福建省厦门市2025年四年级数学第二学期期末考试模拟试题含解析
- 朔州陶瓷职业技术学院《AutoCAD技术》2023-2024学年第二学期期末试卷
- 武汉纺织大学外经贸学院《临床检验仪器》2023-2024学年第一学期期末试卷
- 天津城市建设管理职业技术学院《高级法语1》2023-2024学年第一学期期末试卷
- 内蒙古自治区呼伦贝尔市、兴安盟达标名校2025届全国中考招生统一考试中考化学试题模拟试题(2)含解析
- 广东省陆丰市甲子中学2025年高三3月阶段性测试生物试题含解析
- 2型糖尿病的课件知识
- 南昌职业大学《实验动物学实验》2023-2024学年第二学期期末试卷
- 中国肝病诊疗管理规范
- 2025年世界知识产权日知识竞赛考试题库200题(含答案解析)
- 《燕麦的起源与早期传播:从考古发现到历史文献的考证》论文
- 2025年上半年中国电子集团总部16个岗位公开招聘16名易考易错模拟试题(共500题)试卷后附参考答案
- 高速公路财务知识培训
- 2025年安阳职业技术学院单招职业适应性测试题库学生专用
- 园建工程施工方案
- 2025年科技节活动小学科普知识竞赛题库及答案(共200题)
- 2025-2030中国冶金设备行业市场深度分析及发展趋势与投资战略研究报告
- 邮政招聘笔试题库及答案
- 第五届绵阳市职业技能大赛赛项技术文件-焊工技术文件
评论
0/150
提交评论