




已阅读5页,还剩55页未读, 继续免费阅读
(系统工程专业论文)基于语义网技术的主题搜索引擎原型研究及其在电子政务领域的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要:论文基于本体论的理论思想,把语义网技术有机地结合到主题搜索引擎, 构建了基于语义网技术的主题搜索引擎原型,并在电子政务背景下,建立了电子 政务本体,最后实现了原型的检索子系统,并以旅游政务信息为数据源进行实验, 验证了原型检索子系统的优越性。论文重点研究了以下问题: ( 1 ) 把本体、资源描述框架和推理机制结合到搜索引擎中,设计了基于语义 网技术的搜索引擎原型的总体架构和处理流程。 ( 2 ) 设计了主题网络爬虫,提出了网络爬虫初始化种子站点选取、爬行的策 略,对爬虫结果处理过程中涉及的网页特征向量提取、相似度计算的传统算法进 行了改进。 ( 3 ) 在传统基于关键字检索模型的基础上,提出了关键字一网页关系的双检 索模型。 ( 4 ) 设计了基于本体、资源描述框架和推理机制的语义处理器,用于挖掘网 页间潜在的关系。 ( 5 ) 结合电子政务的特点,提出了基于综合电子政务主题词表的电子政 务本体构建方法,并创建了一个旅游电子政务本体。 ( 6 ) 实现了原型检索子系统,并以旅游政务信息为数据源,与传统检索系统 进行了检索对比实验。 关键词:主题搜索;语义网;本体;资源描述框架;电子政务 分类号:1 p 3 9 3 丽 a b s t r a c t a b s t r a c t :b a s e do nt h et h e o r yo n t o l o g y , t h i sp a p e rc o m b i n e dt o p i c f o c u s e ds e a r c h e n g i n ea n ds e m a n t i cw e bt e c h n o l o g yo r g a n i c a l l y i tc o n s t r u c t e dt h ep r o t o t y p eo f t o p i c - f o c u s e d s e a r c he n g i n eb a s e do ns e m a n t i cw e bt e c h n o l o g y , a n dd e s i g n e da n e - g o v e r n m e n to n t o l o g y i tf i n a l l yi m p l e m e n t e dt h ep r o t o t y p e sr e t r i e v a ls u b s y s t e m , a n d m a d ea ne x p e r i m e n tu s i n gt h et o u r i s mg o v e r n m e n tw e bp a g e s ,w h i c hp r o v e dt h e s u p e r i o r i t yo ft h er e t r i e v a ls u b s y s t e mo ft h ep r o t o t y p e t l l i sp a p e rf o c u s e do nt h e f o l l o w i n gi s s u e s : ( 1 ) i n t e g r a t e do n t o l o g y , r e s o u r c ed e s c r i p t i o nf r a m e w o r ka n dr e a s o n i n gm e c h a n i s mi n t o t h es e a r c he n g i n e , a n dd e s i g n e dt h es t r u c t u r ea n dp r o c e s s e so ft h et o p i c - f o c u s e d s e a r c he n g i n ep r o t o t y p eb a s e do ns e m a n t i cw e bt e c h n o l o g y ( 2 ) d e s i g n e dt h et o p i c - f o c u s e dw e bc r a w l e r , a n dg a v et h es t r a t e g yf o rh o w t oc h o o s e t h es e e dw e b s i t e sa n dh o wt oc r a w l i m p r o v e dt h et r a d i t i o n a lc a l c u l a t i o nm e t h o do f p r o c e s s i n gp a g ef e a t u r e sa n ds i m i l a r i t yc a l c u l a t i o nw h i c hi su s e di np r o c e s s i n g c r a w l e r sr e s u l t s ( 3 ) b a s e do i lt h et r a d i t i o n a lk e y w o r dr e t r i e v a lm o d e l ,t h i sp a p e rp r o p o s e dk e y w o r d - p a g e r e l a t i o n s h i pr e t r i e v a lm o d e l ( 4 ) d e s i g n e d t h es e m a n t i ci n f o r m a t i o n p r o c e s s o rb a s e d o i lo n t o l o g y , r e s o u r c e d e s c r i p t i o nf r a m e w o r ka n dr e a s o n i n gm e c h a n i s m , t om i l l et h ep o t e n t i a lr e l a t i o n s h i p b e t w e e nw e b p a g e s ( 5 ) c o m b i n e dt h ec h a r a c t e r i s t i c so fe - g o v e r n m e n t , t h i sp a p e rp r o p o s e dam e t h o db a s e d o n c o m p r e h e n s i v ee - g o v e r n m e n tt h e s a u r u s t ob u i l dt h ee - g o v e r n m e n to n t o l o g y , a n dc r e a t e dat o u r i s me - g o v e r n m e n to n t o l o g y ( 6 ) i m p l e m e n t e dt h er e t r i e v a ls u b s y s t e mo ft h ep r o t o t y p e ,a n dm a d ear e t r i e v a l e x p e r i m e n tc o m p a r e d t ot h et r a d i t i o n a lr e t r i e v a l s y s t e mu s i n gt h e t o u r i s m g o v e r n m e n tw e bp a g e s a sd a t as o l l r c e s k e y w o r d s :t o p i c - f o c u s e ds e a r c h ;s e m a n t i cw e b ;o n t o l o g y ;r d f ; e g o v e r n m e n t c i 。a s s n 0 :t p 3 9 3 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:冯j 峁 签字日期:歹暑年厂月2e l 导师签 签字日期:多够年多月二日 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 靴做储戤:绷书替醐一弼“月2 日 致谢 本论文的工作是在我的导师季常煦教授的悉心指导下完成的,季常煦教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响。 季常煦教授不仅悉心指导我们完成了实验室的科研工作,在学习上和生活上 也给予了我很大的关心和帮助,在此向季常煦老师表示衷心的谢意。 在实验室工作及撰写论文期间,田志虹等同学给予了热情帮助,在此向他们 表达我的感激之情。 另外也感谢我的父母,他们的理解和支持使我能够在学校专心完成我的学业。 1 引言 1 1 研究背景及意义 随着w e b 规模的急剧膨胀,电子政务数据以几何级数增长,大量的信息排山 倒海般涌来。 2 0 0 5 中国信息化发展报告统计,2 0 0 5 年我国政府门户网站的数 量就已经达到10 0 0 0 个,这些网站发布的电子政务信息总量多达2 10 万条。同时, 公民对于电子政府的依赖程度也在增长。2 0 0 7 年12 月发布的中国互联网络信息 中心( c n n i c ) 调查结果显示,半年内2 5 4 的人访问过政府网站,即有5 3 3 4 万人访问过中央政府或者地方政府网站。政府网站的重要功能之一就是提供政务 信息,比如政策信息、违章查询和税务查询等,几乎每一个公民都有查询这些信 息的需求。 概括地说,电子政务信息资源具有以下显著的特点: ( 1 ) 动态性:政务数据每天都在大量增加、更新,时刻处于变化之中,新的 页面在不断出现,旧的页面在不断更新和删除。 ( 2 ) 重复性:电子政务信息分布在上万台服务器上,不仅数据量大,而且相 互重复,不同的网站之间存在大量相同的网页引用。 ( 3 ) 半结构化或无结构化:这些政务信息通常是无组织的,不具有关系数据 库中数据的结构化特性,或者只有有限的结构化特性,这就使得索引起来非常困 难,更不用说要计算机能理解其语义信息了。 ( 4 ) 异构性:信息分布在不同的平台上,站点结构各异,通过不同的协议( 如 t c p i p 、h 1 曙等) 互相连接,信息结构形式也各不相同,多类型的信息交织在 一起,杂乱无序。 面对信息的海洋,用户要精确地找到所需的电子政务信息变得非常困难,往 往面对着从搜索引擎中查找出的大量的信息而不知所措。目前的基于传统信息检 索方法的搜索引擎大部分使用的是基于文档内容的词频统计的关键字检索方式。 这种基于文档关键词的检索手段随着w e b 上数据量的迅速增加而越来越不适应人 们的要求。信息检索系统在语义处理能力上的缺乏,导致搜索引擎在查全率和查 准率上远远不能满足用户的需求。 为了解决w e b 语义处理的问题,出现了基于本体论思想的语义网理论和技术。 本体是共享概念模型的明确的形式化规范说明,提供对该领域知识的共同理解【1 l , 确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词 汇间相互关系的明确定义。本体提供的丰富原语不仅用来描述领域的概念模型, 而且还是对知识进行推理和验证的基础【2 】。本体的逻辑推理规则用以完成基于语义 的知识表示和推理,从而能够为计算机所理解和处理。 如果将本体与搜索技术结合起来,整个搜索引擎像领域专家一样,不仅给出 查询结果,还给出与检索请求相关的资源,大大提高检索的精度和覆盖率。 本文的研究基于本体论的理论思想,采用“语义网技术,把语义网的资源 描述框架、本体技术、推理机制有机地结合到搜索引擎中,构建了基于语义网技 术的主题搜索引擎原型,并在电子政务背景下,建立了电子政务本体,最后实现 了原型的检索子系统,并以旅游政务信息为数据源进行实验,验证了原型检索子 系统的优越性。 1 2 相关领域国内外研究现状 1 2 1 主题搜索引擎研究国内外现状 国内外目前对主题搜索引擎的研究主要集中以下两个方向: 1 ) 基于内容的搜索 这类搜索方式是传统的信息检索技术的延伸。它的主要方式就是在搜索引擎 内部建立一个针对主题的词表,搜索引擎的网络爬虫根据其内设的词表对网上的 信息进行索弓l 3 j 。各个不同的系统其词表建设的复杂度也大不相同。现在这种词表 的建设越来越多地引入了知识表示的方法,基于本体论的搜索引擎开始出现。一 个本体强调相关领域的本质概念,同时也强调这些概念间的本质联系。以本体为 基础建立的词表能更好地显示一个领域主题中各个概念( 即搜索系统的检索词) 之间的关系,能更好地表现一个主题。 2 ) 基于链接分析的检索 2 0 世纪9 0 年代末期,国外信息检索界开始以s o c i a ln e t w o r k 为模型对互联网 进行模拟。一些学者认为网页之间的链接指向关系同社会网络中的关系有相似之 处。通过对链接进行分析,可以找出各个网页之间的引用关系,由于引用网页与 被引用网页间内容上一般都比较相关,所以就可以很容易地按照引用关系对网页 进行分类。 2 1 2 2 语义网研究国内外现状 语义网标准的制定主要是由国外研究机构来推动的。1 9 9 8 年9 月,t i m b e r n e r s l e e 提出了语义网的总体框架,并概括介绍了它的各个组成部分,拉开了 语义网研究的序幕。同时特别指出了语义网在w w w 未来发展中的重要作用。其 后,t i mb e m e r s l e e 作了补充说明,对语义网的基础资源描述框架中的有向 标记图模型与其它数据模型作了详细的对比。这些文章澄清了与人工智能、知识 表达、实体联系模型、关系数据库之间的联系和区别,为语义网研究扫清了障碍。 2 0 0 0 年12 月,t i mb e m e r s l e e 在v i l 2 0 0 0 会议报告中首次给出了语义网功能 逐层增强的层次结构图,指明了语义网的研究框架【4 】。 之后,语义网的相关研究工作迅速展开。w 3 c 方面,2 0 0 1 年2 月9 日启动 “s e m a n t i c w e b a c t i v i t y 来指导和推动语义网的研究和发展,3 月3 0 日特许成立 r d f 核心工作小组,1 1 月1 日成立w e b 本体工作小组。除了w 3 c ,美国国防部 的d a m l 项目也是语义网活动的主要推动力。欧盟方面,2 0 0 1 年6 月1 3 日设立 w e b 本体研究网络。 1 3 论文研究思路和主要研究内容 论文首先研究了传统搜索引擎原理和语义网的技术架构,提出了基于语义网 技术的主题搜索引擎原型,原型的面向主题特性是由本体决定的,为了将原型应 用于电子政务领域,构建了电子政务本体,最后实现了原型的检索子系统,并以 旅游政务信息为数据源进行实验,验证了原型检索子系统的优越性。 全文分为6 章,各章主要研究内容如下: 第1 章,是引言,介绍了论文的研究背景和研究意义、相关领域的国内外研 究现状、以及研究思路和主要研究内容。 第2 章,首先研究了传统搜索引擎的原理;然后对语义网技术框架进行分析, 发现能用于语义形式化表达及推理的关键技术,探讨它们在主题搜索引擎中的应 用,从而为主题搜索引擎的设计提供技术路线;在确定技术路线后,对资源描述 框架r d f 的理论模型和语法进行了研究,并分析了作为语义推理基础的推理机制。 第3 章,构建了基于语义网技术的主题搜索引擎原型的架构,详细设计了处 理流程;研究了本体o n t o l o g y 在系统中的作用,提出了网络爬虫初始化种子站点 选取、爬行的策略,对爬虫结果处理过程中涉及的网页特征处理、相似度计算的 传统算法进行了改进;基于传统的关键字检索模型,提出了“基于关键字一网页 3 关系的双检索 模型,并且设计了基于o n t o l o g y 、r d f 和推理机制的语义处理器, 确立了原型的索引机制。 第4 章,在研究本体构建原则和总结常用本体构建方法的基础上,结合电子 政务的特点,提出了基于综合电子政务主题词表的电子政务本体构建方法, 并选用本体描述语言o w l 和构建软件p r o t 6 9 6 ,创建了一个旅游电子政务本体。 第5 章,设计并利用j e n a a p i 、l u e e n e a p i 实现了原型检索子系统;在检索子 系统上采用旅游政务网页作为数据源,与传统检索系统进行了相关性检索、参照 性检索对比实验,验证原型检索系统的优越性。 全文的研究思路如图1 1 所示: 至亟匦三 提出 传统搜索引擎研究 语义网技术框架研究, 发现语义表达及推理的关键技术,探讨它们在主题搜索引擎 的应用,从而为主题搜索引擎的设计提供了技术路线 总结 图1 - 1 论文研究思路 f i g u r e l 一1r e s e a r c ht h i n k i n go f t h ep a p e r 4 2 搜索引擎和语义网的相关理论技术 本章首先研究了传统搜索引擎的原理,它是主题搜索引擎设计的架构基础。 然后对语义网技术框架进行分析,发现能用于语义形式化表达及推理的关键技术, 探讨它们在主题搜索引擎的应用,从而为主题搜索引擎的设计提供了技术路线 在确定了技术路线后,对资源描述框架r d f 的理论模型和语法进行了研究,并分 析了作为语义推理基础的推理机制。 2 1 传统搜索引擎的原理 传统搜索引擎一般由网络爬虫、索引器、检索器和用户接口等四个部分组成【5 l , 如图2 1 所示。首先网络爬虫抓取网页,然后由索引器分析抓取到的内容、建立 索引,用户接口响应用户的检索请示,检索器接收请求、与建立的索引器匹配, 匹配后作相关性排序,最后通过用户接口将排序结果返回给用户。 图2 1 传统搜索引擎体系 f i g u r e 2 1a r c h i t e c t u r eo f t r a d i t i o n a ls e a r c he n g i n e 1 ) 网络爬虫 网络爬虫的功能是在互联网中漫游、发现和抓取信息。它是一个计算机程序, 日夜不停地运行,尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联 网上的信息更新很快,所以还要定期更新已经抓取过的旧信息,以避免死链接和 无效链接。 5 2 ) 索引器 索引器的功能是理解网络爬虫所抓取的信息,从中抽取出索引项,用于表示 文档以及生成文档库的索引表。 在索引项有一个权值,以表示该索引项对文档的区分度,同时用来计算查询 结果的相关度【6 】。索引表一般使用某种形式的倒排表,即由索引项查找相应的文档。 索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的 相邻或接近关系。 3 ) 检索器 检索器根据用户的查询在索引库中快速检索出文档,进行文档与查询的相关 度评价,对要输出的结果进行排序,并实现某种用户相关性反馈机制【7 l 。它对于每 个索引项,匹配索引文件,基于某些算法进行相关度评价并排序,最大限度地保 证检索倒排表中包含该索引项的文档,并对所有找出的文档进行集合运算,将结 果集按照与用户查询串的相关性由高到低进行排序,将最终形成的有序文档结果 集合返回给用户接口。 4 ) 用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 主要的目的是方便用户使用搜索引攀,高效率、多方式地从搜索引擎中得到有效、 及时的信息。 2 2 语义网技术框架 本节通过对语义网技术框架分析,发现能用于语义形式化表达及推理的关键 技术,探讨它们在主题搜索引擎的应用,从而为主题搜索引擎的设计提供技术路 线。 语义网不是一个独立的w e b ,它作为目前w e b 的一个延伸,目标是使网络中 信息具有语义,能够让计算机理解和处理,以便于人和计算机之间的交互,并且 能够为人们提供各种智能服务。 语义网是个功能逐层增强的层次化结构【8 】,如图2 2 所示。下面分别对框架 中各层技术进行分析: 6 厂 s e l f l d e s c 1 id o c i i i 一 二亘至 二 匠 图2 - 2 语义网框架 h g u r e 2 - 2f r a m e w o r ko fs e m a n t i cw e b 1 作为编码定位层的u n i c o d e 与u r i u n i c o d e 码为每种语言中的每个字符设定了统一并且唯一的二进制编码,能够 满足跨语言、跨平台进行文本转换、处理的要求。因此采用u n i c o d e 作为语义网上 信息资源的编码方式。 u r i 是统一资源定位符;能够对w e b 上可用的每种资源- h 仰儿文档、 图像、视频片段、程序等以明确的方式进行标识,从而实现在语义网上的定位。 在语义网的体系结构中,编码定位层( u n i c o d e 与u r j ) 处于最底层,是整 个语义网的基础,其中u n i c o d e 负责处理资源的编码,u r i 负责资源的标识。 2 作为语法层的x m l 、n a m e s p a c e 和x m ls c h e m a x m l 是描述w e b 数据内容和结构的标准。根据这个标准,用户可以根据实际 需要定义自己的标记语言,并为这个标记语言规定它特有的一套标签。 n a m e s p a c e 即命名空间,通过使用元素名称来简化u r i 的书写,例如:u r i h t t p :w w w w 3 o r g 2 0 0 2 o t o w l # 可以通过使用“o w l 一加以简化。 x m ls c h e m a 是d t d 的替代品,比d t d 更加灵活。它不仅提供了一套完整的 机制以约束x m l 文档中标签的使用,而且支持更多的数据类型,能更好地为有效 的x m l 文档服务并提供数据校验机制。 x m l 、n a m e s p a c e 和x m ls c h e m a 是语义网框架的重要组成部分,该层主要 负责从语法上表示数据的内容和结构,为语义网的建立提供语法基础。 3 作为数据层的r d f 和r d fs c h e m a 7 r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) ,即资源描述框架,是w 3 c 推荐的用 于描述w e b 信息资源及其关系的标记语言。 r d f 利用x m l 规范来描述元数据,所谓元数据,就是“描述数据的数据 或者“描述信息的信息 。 r d fs c h e m a 定义了一整套用来描述资源类型及其之间相互的词汇集。利用 r d f 描述资源及其相互关系时,首先使用r d fs c h e m a 来构建被描述资源的s c h e m a 信息,然后再利用此s c h e m a 描述目标信息资源。通过r d fs c h e m a 可以定义资源 的类型、属性并显式地揭示它们之间丰富的语义关系。 r d f 和r d fs c h e m a 作为语义网的重要组成部分,能够将不同的资源连接起 来,从而清楚表达w e b 上信息资源间的关系。 4 作为语义层的o n t o l o g y o n t o l o g y ,即本体,这一概念起源于哲学领域,它的哲学解释是:对世界上客 观存在物的系统的描述,即存在论,是客观存在的一个系统的解释或说明,关心 的是客观现实的抽象本质。 后被计算机专家引用于知识表示、共享和重用以及其它相关领域,指的是共 享概念模型的明确的形式化规范说明,有以下四个基本特征: ( 1 ) 概念化:指在识别出与世界上某些现象相关的概念后得出的关于这些现 象的抽象模型,其表示的含义独立于具体的环境状态。 ( 2 ) 明确:是指所使用的概念及使用这些概念的约束都有明确的定义。 ( 3 ) 形式化:是指o n t o l o g y 是计算机可处理的。 ( 4 ) 共享:是指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中 公认的概念集,它所针对的是团体而不是个体。 o n t o l o g y 给出了构成相关领域词汇的基本概念和关系,以及这些词汇外延和 规则的定义。它能够利用类、子类、实体间的关系描述资源之间的关系,通过给 类指定属性并允许子类继承父类的属性, o n t o l o g y 可以作为领域知识的明确规范, 能够表达实体之间的大量关系。因此, 保证语义的一致性,并且具有比r d f 更 强的语义表达能力。概念描述上的确定性及其强大的语义表达能力有力地保证了 推理的有效性。 o n t o l o g y 提供了对领域知识的共同理解和描述,比数据层具有更强的语义表 达能力,它的概念模型也为其上各层提供了领域知识的一致性描述,因此,它在 语义网框架中充当了语义交换桥梁的作用【9 l 。 8 5 作为推理规则层的l o g i c 利用r d f 和o n t o l o g y ,w e b 可以被描述为包含大量富含语义信息的资源库, 但是仅有这些具有语义的描述性资源是不够的,基于语义网的应用还需要根据特 定的规则从这些描述性资源中进行推理。 虽然本体在构建时也包含了一定的规则,但这些规则不仅数量有限,而且只 与特定的本体数据相关联,描述能力有限。要实现语义网构想所期望的强大的推 理能力就必须要有一套高效的,与语义网开放、分布式的体系结构相适应的规则 系统,而这正是l o g i c 层的主要任务。 l o g i c 层通过各种计算机可所识别的逻辑描述语言来表示规则集,这些规则集 为其上各层提供了公理和推理规则,保证了它们能够利用这些规则推理出新知识。 6 作为证据交换层的p r o o f p r o o f 证明层是为保证基于语义网应用的可靠性而提供的一种验证机制,它应 用逻辑层的规则以及本体层的数据表达逻辑推理,并通过各应用都认可的通用证 据表示语言交换“证明 而为数据或结论提供可靠性认证。 7 作为信息安全层的t r u s t 和d i g i t a ls i g n a t u r e 语义网上信息交换的双方必须建立信任关系才能在一定程度上保障信息的有 效性,t r u s t 和d i g i t a ls i g n a t u r e 正是为了保证信息交换的安全问题而设计的。 t r u s t 层位于体系结构的最顶层,通过“证明 交换和d i g i t a ls i g n a t u r e 技术, 可以建立信任关系,保证语义网的可靠性。 d i g i t a ls i g n a t u r e ,即数字签名,是一段加密的数据,用来保证数据或推理的可 靠性。 语义网技术框架中,本体层以上各层还没有制订出具体标准,r d f 层一定程 度上可以支持推理规则,因此r d f 层和本体层是语义形式化表示及推理的保证。 把r d f 和本体结合到主题搜索引擎,能很好的解决领域内共享概念和信息资源的 形式化表示1 10 】;同时,主题搜索引擎借鉴l o g i c 层建立规则机制的思想,建立基 于r d f 层提供的基本推理规则并且可扩展规则的推理机制,在推理机制的支持下 能够推理挖掘出信息资源间的潜在关系。经过本节的研究分析,为基于语义网技 术的主题搜索引擎原型的设计提供了技术路线。 9 2 3 资源描述框架r d f 资源描述框架是资源语义描述的标准,本节研究r d f 模型理论和r d f ( s ) 的基 本语法。 2 3 1 r d f ( s ) 模型理论 计算机中的语义只有在被形式化描述之后才能被自动处理,r d f ( s ) 提供了一 套规范的词汇表作为描述的基础。它用简单的陈述来表达资源,其中每个陈述都 是由主体,谓语,客体组成的,类似自然语言中的主谓宾结构。为此,r d f 提供 了一个简单但功能强大的数据模型,它通过资源属性及其相应值来描述特定资源。 r d f 的基本数据模型是一个三元组,基本对象类型有:资源、属性、属性值, 又称声明,如图2 3 所示。与资源相联系的属性,由属性类型确定,描述资源的 特性或者关系等。属性类型有相应的值,每个属性都有特定的含义、限定允许的 值,它能描述资源类型以及其他属性的关系。在r d f 中,属性值要么是一些被认 为具有原子属性的事物,要么是其它的资源,而这些资源本身又拥有自身的属性, 所有指向同一资源的陈述的集合称为该资源的一个描述。 图2 - 3r d f 模型 f i g u r e 2 - 3m o d e lo f r d f 经过以上分析,可以看到,r d f 数据模型具有以下优点: ( 1 ) 操作简单 r d f 使用简单易懂的三元组数据模型,操作方便。如果用来描述元数据格式 的语法太复杂,必将大大降低元数据的使用率,从而最终无法得到数据描述规范 的认可。 ( 2 ) 资源表达能力强 r d f 模型中,资源的属性可以是资源,属性值也可以是资源,通过这样的表 达,可以构成复杂的网络,能够很好的描述现实世界的模型。 r d f 模型共有三种形式化的表示方法,分别是r d f 图,r d f x m l 和n 3 。其 1 0 中r d f 图形方式直接明了,n 3 更贴近一阶逻辑。考虑到互联网环境下x m l 所具 有的优良特性,所以r d f 数据模型也采用x m l 序列化来表示。这种方式在r d f 的推荐标准当中称之为r d f x m l 规范。采用r d f x m l 语法的r d f 陈述来表示 如下: 以上陈述表示,资源h t t p :l l w w w b j t u e d u e n i n d e x h t m l 的所有者( o w n e r ) 是 b e j i n gj i a o t o n gu n i v e r s i t y 。 2 3 2 r d f s ) 基本语法 r d f 使用命名特性和值来表达与资源有关的简单声明。但是,在某些情况下, 用户希望能够根据需要自定义一些词汇,然后用这些词汇来描述资源。这些词汇 表明用户正在描述某种资源,并且会采用某些特定的特性来描述。r d f 本身并不 能针对特定应用需求来定义一些类和特性。这些类和特性被称为r d f 词汇,它们 需要通过i f 字典描述语言r d fs c h e m a 来定义。 r d fs c h e m a 是以属性为中心,规定与每个属性相关的主体和客体的类型,包 括属性用法的定义和限制等,并定义了在r d f x m l 中使用的标记、词汇。r d f s 的作用可以归纳为: ( 1 ) 定义资源以及属性的类别。 ( 2 ) 定义属性所应用的资源以及属性值的类型。 ( 3 ) 定义上述类别声明的语法。 下面介绍r d f s 的主要原语: 1 ) 核心类 r d f s :r e s o u r e e :r d f ( s ) 中通用的类。所有用r d f 表达式描述的东西都被称为 资源,并被看作r d f s :r e s o u r e e 类的实例。 r d f s :c l a s s :该类对应于一个类型或者类别的通用概念,类似于面向对象编程 语言中的一个类的表示。当r d f 模式定义一个新类时,表示一个资源必有一个 r d f :t y p e 属性,属性值是资源r d f s :c l a s s ,从面向对象的意义上讲,资源r d f s :c l a s s 表示了所有类的集合。r d f 的类几乎可以表示所有的事物。 r d f s :p r o p e r t y :r d f :p r o p e r t y 描述了资源的某个方面、特征或关系的属性。面向 应用的r d f 模式中定义的所有属性都是属性r d f s :p r o p e r t y 的实例。 2 ) r d f s 的核心属性 r d f t y p e :该属性说明了一个资源是一个类的成员,因此该资源具有该类具有 的所有特性。当某个资源具有r d f :t y p e 属性,属性值是某个特定类时,这个资源是 该特定类的一个实例。 r d f s :s u b c l a s s o f :该属性定义了类之间的子类超类关系。r d f s :s u b c l a s s o f 属性 是可传递的,子类继承其父类的定义,故子类的实例资源也就自动的是该子类所 有超类的实例。因为一个类不能被声明为它自己或任何它的子类的子类,所以r d f 不容许任何类的r d f s :s u b c l a s s o f 属性值是其本身或它的某个子类。 r d f s :s u b p r o p e r t y o f - 该属性定义了属性的派生层次结构。 3 ) 核心约束 r d f s 允许定义与属性相关的域和范围的约束,这样对属性的作用的对象和作 用后的结果进行限制。 r d f s 定义的常见约束有:对属性使用的约束r d f s :d o m a i n 和f a l l s :r a n g e ,以及 使用r d f s :c o n s t r a i n t r e s o u r c e 定义了所有约束的类。 2 4 推理机制 r d f ( s ) 定义了蕴涵规则,这些规则的基本形式是 1 1 1 ;如果r d f 图中包含了 某些形式的三元组,则可以根据蕴涵规则在r d f 图中加入对应的三元组。r d f ( s ) 规范中定义的规则包括简单蕴涵规则,k d f s 蕴涵规则和r d f 蕴涵规则三大类【3 】。 这些规则是进行语法变形的基础,例如r d f s 5 的子属性( s u b p r o p e r t y o f ) 传递性规 则、r d f s l l 的子类( s u b c l a s s ) 传递性规则,这些规则为应用程序推理更复杂的推 理提供了基础。 r d f ( s ) 的蕴涵规则只有三类,它并没有对连接语义模型和现实世界提供更多 的帮助,因此对于具体领域间关系是没办法扩充的,例如在“p 1 是p 2 的儿子和 “p 2 是p 3 的儿子 这两个前提下,无法推导出“p 1 是p 3 的孙子 。 1 2 解决具体领域关系扩展的对策是建立领域扩展规则】。领域扩展规则是具体领 域内专业人员对概念间关系的特点及规律的总结,以便于计算机的形式化表达。 一般来说,这类规则表明了领域间各概念之间的联系和推导关系,例如上文提到 的“儿子的儿子叫做孙子一就可看作是一条领域规则。 领域规则的表达形式如下: 【r u l e n a m e :t 1t 2 t n t n + l 】 其中,r u l e n a m o 是扩展规则的名称;t ii 2 t n 是原模型中已经存在的三元 组;一表示推导,如果左边为真,则推导出右边;t n + 1 是由左边推导出的新三元 组。 用上述形式表示“儿子的儿子叫做孙子的规则是:【r u l e l :( ? p ls o n o f 9 t ) 2 ) ( ? p 2s o n o f ? p 3 ) 一( ? p lg r a n d s o n o f ? p 3 ) 】。 r d f ( s ) 的蕴涵规则为复杂推理提供了语法变形的基础,在蕴涵规则的基础上 建立领域扩展规则,能够对具体领域关系进行推理。 1 3 3 基于语义网的主题搜索引擎原型设计 本章首先设计了基于语义网技术的主题搜索引擎原型的架构和处理流程,然 后对其中的关键部分一本体库、网络爬虫、检索模型、语义处理器和索引机制 进行了详细研究。 3 1 原型系统的总体设计 主题搜索引擎同传统搜索引擎一样,都由网络爬虫、索引器、检索器和用户 接口四个部分组成。但由于主题搜索引擎面向某个特定领域,因此要求收集更深 层次的领域信息。和传统搜索引擎相比,主题搜索引擎更倾向于使用深度优先的 网页抓取方法0 2 1 。 为了提高主题搜索引擎深度搜集网页的效率,以及更加准确地根据用户检索 需求匹配相关网页,将语义网的o n t o l o g y 、r d f 技术以及推理机制引入到搜索引 擎,提出了基于语义网技术的主题搜索引擎架构( s e m a n t i c - w e b t e c hb a s e dt o p i c f o c u s e ds e a r c he n g i n e ,简称s t s e ) 。s t s e 架构如图孓1 所示: 图3 - 1s t s e 架构 f i g u r e 3 - 1m o d e lo fr d f 1 4 在架构中,把r d f 和本体结合到搜索引擎,以解决领域内共享概念和信息资 源的形式化表示【13 】,同时,借鉴语义网l o g i c 层建立规则机制的思想,建立基于 r d f 层提供的基本推理规则并且可扩展规则的推理机n t l 4 1 ,在推理机制的支持下 推理挖掘出信息资源间的潜在关系。 s t s e 的各组件按照功能可划分为以下四大部分: ( 1 ) o n t o l o g y 库 o n t o l o g y 库为主题网络爬虫、语义处理器提供了领域知识。 ( 2 ) 网页搜集组件 网页搜集组件包括是主题网络爬虫,它借助于o n t o l o g y 提供的专业领域知识 抓取符合本领域的网页资源。 ( 3 ) 网页原始信息处理、潜在信息处理、存储组件 网页原始信息处理、存储组件包括:网页解析器、语义处理器、索引器。网 页解析器对网页进行h t m l 标签剔除、u r l 提取、摘要等操作;语义处理器把 h t m l 网页转化成r d f 格式,结合推理规则挖掘出网页信息间的潜在关系;索引 器对信息资源进行整理、分类和索引。 ( 4 ) 基于关键字和网页关系的双检索模型组件 组件包括:用户接口、检索器。用户接口提供了系统用户的操作界面,接收 用户的检索请求,并把结果展示给用户;检索器对用户请求进行分析处理,基于 关键字和语义处理器挖掘到的网页间关系进行检索,并把得到的结果按照相关度 排序,最后返回给用户接口。 s t s e 的网页搜集存储流程与用户检索流程是相对独立的。搜索、存储组件定 期对网页搜集、处理并存储,供用户检索时使用,这部分组件在后台一直运行; 检索组件则需要实时响应用户的请求,到索引库中基于关键字和网页关系进行检 索。 s t s e 搜集、存储网页资源的流程是:首先,s t s e 产生多个网络爬虫程序线 程,这些网络爬虫根据初始u r l 列表自动按照深度优先算法遍历互联网上的网站, 根据o n t o l o g y 提供的领域知识抓取符合主题的网页。抓取到的网页分别传送到网 页解析器和语义处理器,经过相应处理,网页原始信息及挖掘出的网页间潜在关 系信息分别以一定结构存储到索引库。 s t s e 用户检索流程是:用户接口接受用户的查询请求,并将其传递给检索器, 检索器对请求进行解析、扩展等处理,并根据相应请求到索引库查找匹配的网页 并提取相关的网页间关系的信息,在关系信息中检索符合查询请求的网页,最后 按照一定算法对查找结果按照相关度排序、并通过用户接口反馈给用户。 1 5 3 2o n t o l o g y 库 领域o n t o l o g y 一方面对领域内的知识进行定义,将领域的概念、关系、实例 等实体元素完整准确的描述出来,另一方面,也能利用定义的实体元素对网页中 的自然语言文本进行分析和处理。 o n t o l o g y 在s t s e 的作用有两个方面:( 1 ) 在网络爬虫抓取网页后特征项提取、 相关度计算的过程中提供领域知识;( 2 ) 在语义处理器的推理过程中提供领域知 识。可以看出,o n t o l o g y 在系统中的作用非常重要。利用o n t o l o g y ,我们可以为 系统添加许多领域相关的语义概念,提高系统的性能和效果。 3 3 主题网络爬虫的设计 主题网络爬虫漫游互联网,发现和搜集主题相关的网页。论文在传统搜索引 擎网络爬虫的基础上进行改进,增加了结果处理模块用于判断抓取的网页是否符 合相应主题,提出了基于o n t o l o g y 的主题网络爬虫( o n t o l o g yb a s e dt o p i c - f o c u s e d c r a w l e r ,简称o n t o t c ) 的系统结构,如图3 2 所示。其中,初始化模块用于确定 主题相关的初始种子网站地址,通常这些站点由人工进行挑选,提高系统的准确 性;爬行模块遍历并抓取网页。 符合 主题 的网 页 图3 - 2 主题爬虫的结构 f i g u r e 3 - 2s t r u c t u r eo ft o p i c - f o c u s e dc r a w l e r 传统的网络爬虫的工作过程如下 1 6 1 :( 1 ) 将一组初始种子u r l 作为u r l 队 1 6 列的初始元素;( 2 ) 按照某种爬行算法从u r l 队列中取出一个u r l 通过h t t p 协 议,下载该u r l 相对应的w e b 页面;( 3 ) 从已爬行的w e b 页面中抽取出新的u r l 插入到i j i 也队列中;( 4 ) 重复( 2 ) ( 3 ) 两步直到达到结束条件。通常情况下, 爬行算法有深度优先和广度优先两种算法,深度优先倾向于选择深度更大的u r l , 而广度优先则处理完同一深度的所有u r l 再向下一个深度进行扩展。 o n t o t c 的处理流程与传统的网络爬虫有很大不同:传统的网络爬虫从初始化 种子出发,通过h t t p 协议抓取网页,提取其中的链接信息,并以迭代方式遍历互 联网;而o n t o t c 抓取网页后传递给结果处理模块,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国柱齿型钎头市场调查研究报告
- 2025年中国微电脑控制电焖炉市场调查研究报告
- 培训计划方案模板培训计划标准模板
- 2025年中国垂准仪市场调查研究报告
- 2025年中国双通道过程信号校验器市场调查研究报告
- 2025年虾仁增重保鲜专用剂项目可行性研究报告
- 2025-2030胶原蛋白市场行业市场深度调研及发展趋势与投资战略研究报告
- 2025-2030耳鸣康复仪市场行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030纸浆产业发展分析及发展趋势与投资前景预测报告
- 2025-2030红外线节能灶市场前景分析及投资策略与风险管理研究报告
- 轻钢龙骨石膏板隔墙施工方案方案
- 公差叠加计算表
- 2021高考数学上海卷真题及解析
- 血栓弹力图在ICU应用
- 阀门驱动装置安装检验批质量验收记录表
- GB/T 26121-2010可曲挠橡胶接头
- GB/T 2423.3-2006电工电子产品环境试验第2部分:试验方法试验Cab:恒定湿热试验
- GB/T 18365-2018斜拉桥用热挤聚乙烯高强钢丝拉索
- GB 38900-2020机动车安全技术检验项目和方法
- 三星4623一体机说明书
- 2023年宁夏宁东水务有限责任公司招聘笔试模拟试题及答案解析
评论
0/150
提交评论