




已阅读5页,还剩65页未读, 继续免费阅读
(计算机应用技术专业论文)基于web的信息集成系统的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
r3 4 9 g 2 8 北方交逋人学坝l 。学似论史 摘要 目前,访问w e b 资源的基本方法主要有两类:一类是利用信息检索 ( i r ) 技术,( 著名的l y c o s 、y a h o o 等搜索引擎采用的就是这种技术b 另 一类可称为知识集成或信息集成的方法。( 搜索引擎可以帮助用户访问大 部分w e b 资源,但查询晤言划转r 对单个文档进行关键字查询。基于w e b 的信息集成系统通过从多个站点收集信息,允许用,o 对从w e b 上抽墩出 来的结构化信息进行较为复杂的查询,即支持类数据库的查询。但士见有 的基于w e b 的信息集成系统要针对每个站点构建复杂的包装器,把信息 转换成数据库表示法,这个过程需要较多的人工干预。力瞻。 本文提出的信息集成方法结合了上述两类基本方法的优点。陔方法 首先将信息源的数据转换为结构化的文本片段,然后刖一种新的逻辑 - - d a t a l o g s 完成对这些结构化的文本片段的类数据库查询。f d a t a l o g s 是 d a t a l o g 的扩展,它把相似性概念和逻辑演绎结合在起,传统数据库中 要求判断关键字是否相等的操作川以扩展为l r 的文本榭似度计算,这样 就不需要再对关键字进行规范化,解决了不同数掘源l l n l 命名不一致的问 题l 最后,我们实现了一个基于w e b 的信息集成系统s p i r a l ( ( s e r v e r p r o g r a mf o ri n t e g r a t i o na n dr e t r i e v a lv i al o g i c 地系统中的查询处理算法 中应用t a * 搜索算法。本文介绍丁如何将d a t a l o 手s 嵌入基_ r iw e b 的信 息集成系统,对系统的整体结构、系统的主要功能及实玑做了荆述。 f 实验结果表明,本文提 内信息集成方法( 结构化文木和d a t a l o g ,s ) 的效率和准确率邵达到了较好的效果。抛? 关键词:牡确债:宣:堡! 些,仃i 启、检索,柑 孵,a 4 搜索算法,s p i r a l p 帆 7 北方交通人学顺1 论文 a b s t r a c 丁 t h e r ea r et w od i f f e r e n tm o d e l sf o rs y s t e m sd e s i g n e dt oa c c e s si n f o r m a t i o n o nt h ew e b t h ef i r s tm o d e l ,w h i c hm i 曲tb ec a l l e dt h ei n f o r m a t i o nr e t r i e v a l ( i r ) m o d e l ,i se x e m p l i f i e db ys e a r c he n g i n e sl i k el y c o sa n da l t a v i s t a i nt h i s m o d e lal a r g ep o r t i o no ft h ew e bc a nb eq u e r i e d ,b u tt h eq u e r yl a n g u a g ei s l i m i t e dt o k e y w o r ds e a r c h e s o n s i n g l e d o c u m e n t s t h es e c o n dm o d e li s k n o w l e d g eo ri n f o r m a t i o ni n t e g r a t i o nm o d e l ,w h i c hs u p p o r t sm o r ec o m p l e x d a t a b a s e l i k eq u e r i e s i np a r t i c u l a r , q u e r i e st h a t i n t e g r a t e i n f o r m a t i o nf r o m m u l t i p l e w e bs i t e sc a nb ef o r m u l a t e d h o w e v e ri nc u r r e n ti n f o r m a t i o n i n t e g r a t i o ns y s t e m s ,c o m p l e xs i t e s p e c i f i c “w r a p p e r s a r eu s e dt oi n t e g r a t e d i f f e r e n ti n f o r m a t i o ns o u r c e si n t oac o m m o nd a t a b a s e r e p r e s e n t a t i o n t h es y s t e md e s c r i b e di nt h i s p a p e ri n v e s t i g a t e s a ni n t e r m e d i a t e p o i n t b e t w e e nt h e s et w om o d e l s i no u rs y s t e m ,i n f o r m a t i o ns o u r c e sa r ec o n v e n e d i n t oah i g h l ys t r u c t u r e dc o l l e c t i o no fs m a l lf r a g m e n t so ft e x t d a t a b a s e l i k e q u e r i e st ot h i ss t r u c t u r e dc o l l e c t i o no f t e x tf r a g m e n t sa r e a p p r o x i m a t e du s i n ga n o v e l l o g i c c a l l e d d a t a l o g - s ,w h i c h c o m b i n e si n f e r e n c ei nt h e s t y l e o f d e d u c t i v ed a t a b a s e sw i t hr a n k e dr e t r i e v a lm e t h o d sf r o mi n f o r m a t i o nr e t r i e v a l d a t a l o g - sa l l o w sq u e r i e st h a ti n t e g r a t ei n f o r m a t i o nf r o mm u l t i p l ew e bs i t e s , w i t h o u tr e q u i r i n gt h ee x t r a c t i o na n dn o r m a l i z a t i o no fo b j e c ti d e n t i f i e r st h a t c a nb eu s e da sk e y s i n s t e a d ,o p e r a t i o n st h a ti nc o n v e n t i o n a ld a t a b a s e sr e q u i r e e q u a l i t yt e s t so nk e y sa r ea p p r o x i m a t e du s i n gi rs i m i l a r i t ym e t r i c sf o r t e x t w ea l s om a k eu s eo f a p p r o p r i a t es e a r c ht e c h n i q u e s 、a + s e a r c hm e t h o di n t h ei m p l e m e n t a t i o n e x p e r i m e n t sw i t hap r o t o t y p ei m p l e m e n t a t i o ns h o wt h a t d a t a l o g - s i se f f i c i e n tf o rd a t a b a s e sw i t ht h o u s a n d so ft u p l e s ,a n d p r o d u c e s h i g h l ya c c u r a t er e s u l t sf o rm a n yq u e r i e s w ew i l lt h e n d e s c r i b eh o wd a t a l o g si se m b e d d e di na nw e b - b a s e d i n f o r m a t i o ns y s t e m s p i r a l ( s e r v e r p r o g r a m f o ri n t e g r a t i o na n dr e t r i e v a l v i al o g i c ) ,a n dt h ea r c h i t e c t u r eo ft h es y s t e m k e y w o r d s :w e b - b a s e d i n f o r n m t i o n i n t e g r a t i o n i n f o r m a t i o n r e t r i e v a l s i m i l a r i t y , a + s e a r c h s p i r a l 。 北“交通人学坝l :学位论义 论文的背景与意义 绪论 自从w e b ( w o r l dw i d ew e b ) 1 9 9 1 年诞生以来,已经发展成为拥有 约1 亿用户和近千力个站点、6 0 0 g 信息容量的巨火分布式信息空问,而 且这个数字仍在以每4 至6 个月翻一番的速度增加。w e b 包含了从技术 资料、商业信息到新闻报道、娱乐信息等多种类别和形式的信息,为用 户提供了一个极具价值的信息源。i n t e r n e t 是一个具有丌放性、动态性和 异构性的全球分布式网络,资源分布很分散,目没有统一的管理机构和 结构,这就导致了信息获墩的川难,如何快速、准确地从浩瀚的信息资 源中寻找到所需的信息已经成为困扰网络用户的一大难题,这也就是所 谓的r i c hd a t ap o o ri n f o r m a t i o n 问题。 w e b 数据结构性差,一般都是超文本文档。数据的存取主要依赖于浏 览和信息检索技术。w e b 数据的这种存取方式具有很大的局限性,不能有 效地支持w e b 数据的操作。崩i mi 方问w e b 资源的基本方法般有两种: 一种是利用信息检索( i r ) 技术,搜索引擎( s e a r c he n g i n e ) ,如著名的 l y c o s 、y a h o o 等采用的就是就足这种技术。另一种方法可称为信息集成 或知识集成的方法,如a r i d n e 等。 搜索引擎旨在为用户在页面的海洋中导航,帮助用户访问大部分w e b 资源,但查询语言只限于刘- - 个文档进行关键字查咖,输入一项柃索请 求的网络用户会被数以千汁的i 司答弄得不知所措。检索结果常常涉及一 些无关的网址,又可能漏掉了存有重要资料的其它网址,用户在信息搜 索过程中会走很多弯路,浪费了;i 贵的时阳j 。 基于w e b 的信息集成系统通过从多个站点收集信息,允许用3 一划已 经从w e b _ :抽l o ( 来的结构化俯息进行较为复杂的a 咖,即支持类数据 库的查询。但w e bj 二信心的址j i l ;水的表示方法足丈小,有时内容杂乱且 意义不明确。圳此这种使j t j f i 统数捌模型的系统婴花人量人力来对这些 数据进行预处删,而且系统川驶一j :结构化程度比较高的数掘。 此外,丛于w e bf r w i 。n 集成 1 存在着不同数据源州命名不一敛的问 题。在信息集成系统。h 公jl 域问题足个关键而j :i 坫f i f j 的问题。订, 北方交通人学倾i j 学位沦义 一般是采用建立名称映射表的力法来解决这问题。这种方法效率很低, 且不能适应w e b 的变化。 本文主要针对这些问题进行了较为深入的研究,提出了种新的集 成方法。该方法结合了i r 模型和信息集成的优点。其核心是采用一种非 传统的数据表示模型s t i r ( s i m p l et e x t i nr e l e t i o n s ) ,即所有的信息都 用关系模型来表示,每个冗组的元素定为自由文本( 即文档) ,然后用一 种新的逻辑d a t a l o gs 刘s t i r 数据库的访问。s t i r 表示方法结合 了基于逻辑和基于文本两种方法的的优点。d a t a l o g是非递归的_sd a t a l o g 的予集,通过引入描述文本史体的原子类型及计算文本相似度的操作对 其进行了扩展,相似度的汁竹利j 1 】i r 领域向量空问枪索模型常用的t f i d f 加权方案以及基于同条的余弦相似值汁算方法。 本文还在d a t a l o gs 夼咖处理算法中应用图的搜索算法a + 算法 查找一个查询的前,个分值最,岛的置换,提高了查询效率。 应用本文提出的信息集成方法,实现了一个简单的基于w e b 的信息 集成系统。 论文的主要内容及章节安排 本文共分为五章。 第一章w e b 上的信息发现和检索概要介绍w e b 的组成和特点及 当的w e b 的研究热点。介 “w e b 的信息发现和检索技术的基本原理、 不足及发展前景,分析i r 技术n :w e b 的检索- 一的作片j 。 第二章基于w e b 的信息集成介缁基 :w e b 的信息集成的二:q - 、 基本概念、应用及其具体实例,着重阐述基于w e b 的信息集成系统的基 本结构、主要研究内容及研究小:佚。 第三章一种新的基于w e b 的信息集成方法针对当时棼寸二w e b 的 信息集成系统面临的不同数 :l l :源川命名不一致的问题,提出了一种新的 集成方法d a t a l o gs 。i i 细介绍该方法的数据模型、逻辑及查潮钟法。 第四章基于的信息集成系统的实现讨论如何将d a t a l o g嵌入丛_ s 于w e b 的信息集成系统。介 “了培于d a t a l o g _ s 的集成系统的总体结构, 对各模块的主要功能及一b 天谜的蛞观点做了i 刚述。 第m 章结束语总绌沦史的i j 要t 作和进步的研究方向。 l l 方交通人学坝i + j 位沦立 第一章w e b 上的信息发现和检索 1 1w e b 基础 w o r l dw i d ew e b ( 简称w w w 或w e b ) 是近年来随着i n t e m e t 的发 展而迅速崛起的一门技术。w e b 是一种交互式图形界面的i n t e m e t 服务, 具有强大的信息连接功能,是i n t e r n e t 上最为普遍的应用之一, = i 前是 i n t e r n e t 增长最快的网络信息服务。w e b 的个非i f 式的定义:w e b 是建 立在客户服务器模型之【:的一个基于i n t e r n e l 的全球连接的、分钿的、 动态的、跨平台的交互式超媒体信息系统,它能够以统一的浏览界面为 用户提供各种i n t e r n e t 服务。从技术角度上讲,w e b 是个以h t m l 语 言和h t t p 协议为基础的分佃式超媒体系统,是由超文本、i n t e r n e t 本身 和多媒体三者汇合而成。 1 1 1w e b 的特点和组成 w e b 具有如下特点: 分布式的信息资源。i n t e r n e t 的信息资源具有极强的分布特性。w e b 是一种基于超文本的网络信息资源服务,信息资源包含的指针可以 引导用户从一个计算机转移到另外一个计算机。这种转移对月】户是 透明的,为用户访问i n t e r n e t 资源提供了一个简单、直观的界而。 w e b 综合了i n t e r n e t = 的几乎全部服务。w e b 上不但可以使用 g o p h e r 、f t p 、t e l n e t 以及其他i n t e m e t 上的工具,而且它的内部特性, 让它可以适应新的标准、新的蜘议、新的资料利,类,甚至新的语言 发瓞。 w e b 适用于各种平台。i j 以使j h 任何台i 叫l i 、任何种操作系统, 在任何时f n j 、任何地力+ ,nw e b 中漫游。 w e b 的丌放性。任何人j l 坚有适当的设备和软什,都可以分享i i _ ! = 界 各地的w e b ,t - 的信息。 w e b 是一种从传统的c l i e n t s e r v e r 发腱起来的新j 弘的体系绱构,它 被称为具有三层结构的c l i e n t s e r v e r 模式i 。“。从逻辑上u ,w e bt i f 客户 软件w e b 浏览器( b r o w s e r ) 、w e b 服务器h 1 1 t p d ( h t t pd a e m o n ) ,和 儿 立通人学坝i 学位论史 数据源服务器组成。其基本结构如图1 1 所示。 非法请求 甲产丽 l j w e b 璐砷= 圈= 数据源 请求 浏览器l h t t p 响应 服务器 客户机h t m l服务器 图卜1w e b 的结构及工作原理 w e b 的整个:【作流程如1 卜: 用户在浏览器中输入资源信息的u r l 。 浏览器接受u r l ,申请一个任意的未占用的非保留端口号以便进行 通信。然后,浏览器与服务器建立连接,并向w e b 服务器发出请求。 w e b 服务器在工作过程中始终侦听着t c p 的w e b 端口( 默认号为 8 0 ) 。若该端口有建立连接的请求,就接受建立连接,服务器建立:一 个新的服务进程。该进槲一丌始先对用户的取片j 权进行鉴别,并进 行身份审核和安全性检查。对于合法请求进行响应,同时向客户发 送状态信息,并按u r l 地址直接取出文件。但有时需要执行某个程 序( 如c g i 程序等) 后才能产生客户所需的文件。等到文件传送完 毕,终止该连接。浏览器收到响应后,调用必要的帮助应用程序将 响应结果显示出来。刚州断丌连接,一次操作结束。 1 1 2w e b 发展现状及研究热点 自从w e b ( w o r l dw i d ew e b ) 1 9 9 1 年诞生以来,已经发展成为拥有 约1 亿用户和近千万个站点、6 0 0 g 信息容量的巨大分和式信息空问,而 且这个数字仍在以每4 至6 个j j 删一番的速度增加i | + 2 i 。w e b 创始人t i m b e r n e r s l e e 认为,w e b 作为信,心丛础结构平台,不f l l 存放大量企业数据, 也会成为个人信息系统( p e r s o n a li n f o r m a t i o n ) 的l ,台i “3 i ,这些都促使 w e b 中的数据量呈爆炸性垧k ( 每年以1 0 倍速度增长) 。w e bf n “1 现 迅速推动了i n t e r n e t 的发展,成为刚络资源访问的标准模型,围绕w e b 的新技术、新标准不断涌现。 x m l 标准i “4 i 随着w e b 义们:越米越人,h 1 、m l 暴露出许多缺点。 l l 方交地人学坝i + 位论史 尤其是它在以下三个方面存:i :1 1 严匝不足:扩展性方面,h t m l 不允许用 户设定自己文件的标签或者心性,因而其扩展性不好:结构方面,h t m l 不支持描述数掘库和面向对象层次的深层结构舰范;数据确认方面, h t m l 不支持检查输入数据合法性的语言规范。 x m l 是种简单的s g m l ,它保留了s g m l 可扩展性、结构以及数 据确认方面的主要优点,可支持建立用户定义的w e b 文件类型,对s g m l 的某些内部数值和参数进行了重新定义,省略了s g m l 中许多复杂而少 用的部分。x m l 的平台无关性将对w e b 产生巨大的影响。x m l 用于w e b 最大的长处是它与d o m ( 埘象文件模型) 的接f 。x m l 将引来对w e b 查询技术、w e b 数掘库、w e b 交换技术全面革新,构建在x m l 语高上 的第二代w e b 将成为现实。 w e b 数据库数掘库技术经过几十年的发展,其功能越来越强大, 但随着以网络为中心的计算4 j j l t l c , f t 的到来,以往被广泛使用的片j 传统 d b m s 建造的数据库资源不能被w e b 直接访问,这种状况影响了数据库 资源的共享,造成了资源浪况。w e b 上数据量大,类型多,管理1 i 足, 而这恰恰是数据库的优势,1 , k lj l e 数据库技术与w e b 技术的结合已成为当 前研究的热点,我们称之为w e b d b 。目前,w e b d b 的研究主要集中在 以w e b 资源充实本地的数掘仓库和用浏览器访问刚上数据库上。 w e b 数据源相关技术随着i n t e r n e t i n t r a n e t 的发展,w e b 中存放了 越来越多的数据,称为w e b 数据,且数据量仍在快速增长。人们逐渐认 识到w e b 数据的价值,丌始寻求从这个庞大的数据库中发掘有价值信息 的方法。不同领域的研究人哄1 】;从各自的角度出发,腱 对w e b 数据源 相关技术的研究与丌发,脱了各种基于w e b 数据源的技术和应川,如 w e b 上的资源发现、w e b 数圳岔咖、推荐系统( r e c o m m e n d e r s y s t e m ) 、 基于w e b 的数据仓库、w e b 数训挖拥i ( d a t am i n i n g0 1 1w e b ) 、w e b 数据 源集成技术。其一h 数据j j 域f 1 9 :作主要柯w e bi j 信息的组纵1o 集成 技术以及信息访i u j 技术的研究。 1 2w e b 信息的发现和检索 i n t e r n e t 删络卜蕴藏着引i 寓的信息资源,仉山j :i n t e r n e t 址一个 丌放性的全球分价式网络,资源分布很分散, = 叫上的资源没有统一 的管l q ! 和结构,从这个信,1 2 , a 4 r i 准确方便迅迷地找剑自己所需f 门信息 北方交通大学坝l j 学位论立 往往比较困难。萨是为了解决这个问题,从2 0 世纪8 0 年代起人们就丌 发了诸如a r c h i e 、w a i s 、g o p h e r 等检索工具,从9 0 年代中期又出现了 检索w e b 信息资源的搜索引警技术,并依此构造检索所有各类网络信息 资源的集成化体系。 i n t e m e t 上第一个导航软件是a r c h i e 。a r c h i e 系统维护着一个文件名 数据库,这些文件名对应着支持匿名r p 访问的数百个i n t e r n e t 网点上的 所有可公开访问的文件。借助a r c h i e 可以搜索那些在文件名中包含某些 子串的文件。它还捌有一个针对+ 些文件的小型火键词数据库,该数据 库支持对于特定话题的搜索。 w a i s ( w i d ea r e al 币r m a t i o ns e r v e r ) 简化了剥索引数据库的搜索。 通过使用w a i s ,可以请求那些包含一个或多个关键字的文件。剥于完 成搜索后发现的每个文档,w a i s 还给出个相应的评分,表明文档与 所给搜索请求两者之间的相关程度。 在w e b 之i j ,最流行的i n t e r n e t 信息检索工具是g o p h e r i “2 1 ,它集成 了众多由f t p 、a r c h i e 、w a l s 和t e l n e t 所提供的各种功能。简单文本文件、 图象和声音文件等按类别分层次存储在g o p h e r 服务器上,在g o p h e r 客 户端访问。分层菜单和子菜单以一种有组织、逻辑化的方式引导j 刊户找 到所需资源。信息按类分组,何个服务器上的信息必须在m i n n e s o t a 的 m o t h e ro fa l l g o p h e r i “2 21 上注册。一种称为v e r o n i a i “。2 1 的搜索机制用于询 问m o t h e r g o p h e r 上的信息,并找到所需资源的位置。 在w e b 之i j i ,信息量小,维持一个核心资源m o t h e r o f a l lg o p h e r , 还是适用的。随着信息量的增多,这种格式刻板的少量信息逐渐被没有 核心资源的超链接信息所取代。具有分层分类机制的分类目录和全自动 搜索引擎开始解决这类问题。 1 2 1 分类目录 最早在w e b 上仿效g o p h e r 的逻辑结构的足g e n v l ( g e n e r a t ev i r t u a l l i b a r y ) i | 2 。j 。g e n v l 被称j , j “l ui f 公告板之母”,和g o p h e r 杆,它 建立了一个分层次的用户捉供的虚拟于图书馆。g e n v l 和g o p h e r 的思 想基本类似,但w e b 上的页l f | f f i 必注册了,w e b 页l 斫的超链接消除了对 单一核心注册机构的依赖。g e n v l 分层、分类f f j , i i # 贡被后来很多1 :t - 干o 用,最著名的就是y a h o o ! 。i 】i i l sy a h o o ! 仍被认为足蜮好的川j :a 找信 息的分类工具之一。它具n 副卅w 门刈w e b 资2 | ! ;i 5 ;- t l 0 分类机制。 北方交通人学坝i # 位论文 早期的分类1 - i 录试图通过人 :“侦察员”不断浏览新的站点束解决 资源发现问题。y a h o o ! 的流行使“侦察员”的工作不再是寻找新的资料 而是对用户提供的页面进行p 1 5 估。人工的干预和结构化的按类分层一般 能保证搜寻信息的用户不会被无关的信息弄得不知所措。但这类搜索引 擎有以下问题:分类是按分类者或分类软件的分析而定,不一定与用户 的意见一致,如果你查找的信息没有对应的分类项,则无法进行搜索; 由于人工获耿和维护数据,分类目录覆盖的面较窄而且会有过时的信息; 查询只针对关键字、描述信息和主题,而不是全文,有时会漏掉一些相 关文档。 1 2 2 搜索引擎 搜索引擎是指对w e b 站点资源和其他网络资源进行标引和检索的一 类检索机制“】,一般包括数荆采集标引机制、数据组织机制、用尸检索 机制( 圈1 2 ) 。 搜索引擎数据采集机制按照一定规律和方式对网络上w e b 站点进行 搜索,并将搜索到的w e b 页而信息存入搜索引擎临时数据库:数据组织 机制将w e b 页面信息进行整理以形成规范的页面索引,并建立相应的索 引数据库;用户检索机制帮助用户用一定方式检索索引数据库以获得用 户需要的w e b 站点或页面。 图1 2 搜索引擎基本结构 f t p 站点 g e n v l 的实践证明,完全依靠用户提交来完成资源发现是不够的。 因此,出现了第一个自动化的搜索引擎w j r l dw i d ew e bw o r m 。为了 发现和索引文档,它运 ?个被称为r o b o t t “2 。5 j f 向搜寻程序( 也称为 北万变埘人学坝i 学位论文 s d i d e r 、w o r m ) ,换言之就是一个能从w e b 上通过h t t p 等标准协议读 取页面,并通过分析文档内嵌的u r l 沿着w e b 页面中的超链接进行漫 游的程序。同时,建立相应的数据库,记录每一个u r l 及其被发现的位 置。w w ww o r m 用户界面t lj - r 户在h t m l 表的一个域中填写查询串, 提交后对数据库进行查询,返回结果是一个u r l 或主题中包含查询串的 站点列表。 w w w w o r m 的思想被其他工具如l y c o s 和i n f o s e e k 采纳并改进,例 如建立更精确的r o b o t ,采用更复杂的i r 文本分柝技术来维护数据库。 1 3i r 技术的作用 由于w e b 数据结构性差,般都是超文本文档,数据的存取主要依赖 于浏览和i r ( i n f o r m a t i o nr e t r i e v a l ,信息检索) 技术。 1 原理 传统的计算机检索技术的。s 本思想是将提问同( 即用户提问式中的 主题词) 与检索词( 文献中的t 题词) 进行比较,比较的结果只有两种: 如果文献中存在一个与提问词一致的检索词,那么这篇文献很可能是需 要的;如果不一致,这篇文献就不是检索者所需要的。例如,如果要查 找有关“d a t a l o g ”的文献,就将“d a t a l o g ”作为提问同输入计算机,并 指定从文献的主题词项中( 也- 可指定题目项或摘要项) 去查找。 如果浚项建有倒排文件,那么计算机便从倒 - | | = 文件中查找一下足否 存在“d a t a l o g ”一词,立粜_ 仃,则立即显示命。 1 文献的篇数;如果指定 的被检索项未建倒排文件,计算机将按顺序扫描数据库中所有文献记录 的主题词项,直到查找完最后1 个记录,彳显示命中文件篇数。 倒排文件是联机快速检索的天键所在。在建立数据库的过程i h 建 立和不断更新倒排文件是通n 篮的工序。陔文件一般i l 数以j5 e 至 数以百万计的检索词所构成,花缚个检索词的后u 录有数据库。包含 该词的文献篇数以及这些义献谯数扼:库中的流水号( 或地址) 。该文件是 直接存墩的,从儿十万个冲i t 检索词,只需婴儿秒l i , j 。m 。一旦找剑所 要求的洲,就j 5 上知1 道命。”文献的篇数及它们在阼i i i 的位置,并 i 快地 将这些文献娃示剑终端屏将b 刈= i 川i 米。 2 信息检索模型 北订交通人学坝i j 学位论文 在信息检索方面有三个籀本问题:文档表示的选择、查询形成以及 确定文档与查询相关程度的排序方法。依据这些问题如何解决的方法, 提出了不同的检索模型,卜璎仃以下三类【l 。“。q : 布尔模型御尔模型是一种简单的严格匹配模型( e x a c tm a t c h m o d e l ) ,它定义了一个二值变量集合来表示文档,这些变量对应于文档 中的特征项,一般是由训练文档集中的词条或短语组成。如果词条对文 档内容有贡献,则赋予t r u e ,否则置为f a l s e 。检索时,根据用户提交的 检索条件在文档中的逻辑关系是否满足,将检索文档分为两个集合:匹 配集和非匹配集。佰尔模型实现简单,检索速度快,在许多检索系统中 得到应用,y a h o o ! 、s o h o 等并名网络检索站点均采用了和尔检索模型。 但布尔模型的文档表示能力羞,无法区分特征项对文档贡献的重要程度, 并且逻辑表达式过于严格,往往会因为一个条件未满足而忽略了其他全 部特征,造成大量漏检。 向量空间模型向量空叫模型( v s m :v e c t o rs p a c em o d e l ) 足近年 来使用较多且效果较好的种信息检索模型。在v s m 中,将文档看作 是出相互独立的词条组( t ,t ,l ,) 构成,对于每一条词条t , 都根据其在文档中的重要程度赋以一定的权值w ,并将t ,t ,t 。 看成一个n 维坐标系中的坐标轴,w ,w ,w 。为对应的坐标值。 这样,由( t i ,t :,t 。,) 分解而得的正交词条矢量组就构成了一个 文档向量空间,文档则映射成为空问中的个点。对于所有文档和用户 查询都可映射到此文本向最空问,用词条矢量( t ,w ,t ,w 。t , w 。) 来表示,从而将文档信息f 内匹配问题转化为矢量空划中的矢量f 匹配 问题。假设用户查询为q ,被榆索文档为d ,岍者的相似程度可川向量 之阳j 的兴角来度量,央角越小,晚明相似度越高,川似度计算公式如| 二_ : 研”,( 9 ,d ) = c o s ( ( 2 ,d ) 厨瓯 表示矢量中词条t ,及j 权值w 的选取被称为特征提取,特征抛取是 利用向量空问模型进行检索的火键步骤。在自然语 j 文档中,各训条在 不同文档中所呈现的频率分巾越不同的,因此可根搠例条的频率特性月 统计方法进行特征提取。n :义梢1 ,词条的哦婴队j 洲条在文档内的出 北方变通人学坝j 学位论义 现频率成f 比,与i ) l i 练文档集1 , b 现该词条的文档次数成反比,因而可 构造词条权值评价函数: r ,、 = 以l o g l 二+ o 5i l n k 其中以表示词条t 。在文档d ,中出现次数,用于表示特征提取的全 部训练文本的文档总数,仇表示包含词条t 的文档个数。 概率模型前i 尔模型和向鞋空i 、日j 模型都将文档表示词条视为是相互 独立的项,忽略了表示词条川的关联性,而概率模型则考虑到了涧条、 文档间的内在联系,利用词条问和词条与文档问的概率相依性进行信息 检索。 二值独立检索模型( b i rb i n a r yi n d e p e n d e n c er e t r i e v a l ) 是一种实现 简单且效果较好的概率检索模型。在b i r 中,假设文档d 和用户查询o 都可用二值词条向量( x l ,x 2 ,x n ) 表示,如果词条t ,d ,则x i = l , 否则x i = o 。利用b a y e s 公式并经过简化后可得到文档与用户查询问的相 关函数: 删d ,q ) = i o g 刺 其中,p ,= r r ,q ,= 仍- r ,) 够一r j ,表示训练文档集中的文档总数, ,表示训练文档集中与用户相关的文档数,f 表示在训练文档集中包含词 条t 的文档数,表示r 个州关文档中包含词条t ,的文档数。 3 检索结果评价 一般用查全率( r e c a l l ) 和查准率( p r e c i s i o n ) 来衡量文档表示和检 索效果。查全率为检索出的州关文档与实际相关文档数之比,查询精度 为检索结果中的相关文档数1 j 结果集文档数之比。个优秀的索引、检 索系统应刷时m | j 有较高的a 个二红和奁准率。 1 4w e b 信息检索技术的发展趋势 w e b 信息检索工具在完瓣身的基本检索功能丛础上,已丌始把人 一f 智能引入信息的标引和榆索。例如,a i t a v i s t a 往n 然语言的t l 动翻译 一卜有所建树,e x c i t e 能够f lz 曲编制文摘。4 i 久丽推的a s k j e e v e s o 北方交通人学坝l 。学化论文 ( 1 】i f d :丛l 盟斑。i l s k j c c 3 t s ,q l 】 ) 州l n q u i z i t ( 1 ) l i p :丛必出血叫z i l 。l 如】l 都允i - t :用户 直接用英文句子提问,例如“w h y i st h es k yb l u e ? ”作为检索提问。 新兴的搜索引擎的g o o g l e 则使用一种包含对w e b 的连接结构进行分 析和大规模数据挖掘的技术。例如,g o o g l e 不仅扫描搜索关键词,还阅 读页面全文、考虑到图象和所有连接,然后把浚页面与类似页面划分开 来。另外,s i m p l i c o r n 、d o g p i l e 、d i r e c th i t 和n o r t h e r nl i g h t 等新一代搜 索引擎正努力使网络搜索更简单、更精确i “1 。 目前倍受关注的是移动式信息搜索a g e n t ( m o b i l ea g e n t ,简称m a ) 技术。a g e n t 是有一定智能。盹的程序,具有解决问题所需的知识、策略 和相关数据,并具有内在的【7 i 我控制。信息搜寻a g e n t 能够独自完成文 档的发现、索引、过滤,j j :能按需求将结果送交给用户。m a 是能够在 网络中,在自己的控制下从台主机移动到另一台主机上继续运行的 a g e n t 。m a 技术突破了传统的c s 框架,能够很好地处理c s 结构系统 难以解决的问题。 - - - - - - - - - - - - - - 。 i 北方交通人学烦j 学位论义 【参考文献】 【i 1 1 】d i c k p o u n t a i na n dj o h nm o n t g o m e r y ,w e bc o m p o n e n t s ,b y t ea u g u s t1 9 9 7 , p 5 6 - 6 1 ; 【1 1 2 】计算机世界,第1 4 划,c 版,1 9 9 9 年4 爿1 9 日; t 1 1 - 3 1 t i mb e r n e r s l e e w w w :p a s t ,p r e s e n t ,a n df u t u r e i e e ec o m p u t e r , 1 9 9 8 , 2 9 ( 10 ) :p 6 9 - - - 7 7 ; f l i - 4 血耻坠坠! :丛3 t 。! ) g i d 刚ij 1 1 刖衄山2 , 【1 - 2 1 】p l i n d e r , g o p h e r - f a q ,到_ 盥:碰蛳。娃。p s 必山出q 出岫拦x 监i 坐l e j i 二l q , d e c e m b e r19 9 2 ; 【1 - 2 - 2 】s f o s t e r , f b a r r i e ,v e r o n i c a - f a q ,必曲c “虹蛆山n 盟型业汕“址u 旦2 i ; 【1 2 - 3 】o am e b r y n e ,g e n v l a n dw w w :t o o l sf o r t a m i n g t h e w e b ,h t t p : 韭丛坠拄玉必山山土d 业出血丑世山上业n h m n 驻i = j n u 尘岫; f 1 2 4 】储荷婷等并,i n t e r n e t 刚络信息检索原理l :n 技巧,清华人学出版 十, 1 9 9 9 年1 0 爿: 1 2 - 5 】m k o s t e rt h e w e br o b o tp a g e ,h t t p :i n f o w e b c r a w l e r c o m m a k p r o j e c t r o b o t s ; 【1 - 3 - 1 】c h a r l o t t ej e n k i n s ,m i k ej a c k s o n ,p e t e rb u r d e n s e a r c h i n gt h ew o r l dw i d ew e b : a ne v a l u a t i o no fa v a i l a b l et o o l sa n dm e t h o d o l o g i e s ,i n f o r m a t i o na n ds o f t w a r e t e c h n o l o g y3 9 ( i9 9 8 ) ,p 9 8 5 9 9 4 ; 1 3 2 】张进并,计算机信息检索软仆殴计原理,武汉人学出版社,1 9 9 6 年2 月; 1 4 1 】r o b e r t e f i l m a na n ds a n g a mp a n t s e a r c h i n gt h ei n t e r n e t i e e ei n t e r n e t c o m p u t i n g ,1 9 9 9 ,2 ( 4 ) :p 卜3 : 2 北j j 变通人学f l ! ;! i j 学位论义 2 1 概述 第二章基于w e b 的信息集成 在过去的几年中,i n t e r n e l 尤其是w o r l dw i d ew e b ( w e b ) 得到了飞 速的发展,已发布的主页每天都在增加。然而人们却越来越感觉到i n t e r n e t 这个“数字时代的图书馆”并不像真f 的图书馆那样支持有组织的信息 管理和检索。恰恰相反,它只怂个杂乱无章的信息仓库。在这个仓库 中有书刊、论文、科研资料、会议记录、广告、录致、录音等等,转瞬 即逝的信息和具有持久意义的重要资料混杂在起。如何快速、准确地 从浩瀚的信息资源中寻找到所需的信息已经成为困扰网络用户的大难 题,这也就是所谓的r i c hd a l ap o o ri n f o r m a t i o n 问题,因此对w e b 上信 息的统一组织和处理技术的研究具有重要意义。 对w e b 信息的组织和处则中利用了很多相关的数据库技术进行信息 的管理和维护。其它的技术,如信息检索、人工智能等也同样被广泛的 利用。与数据库技术相关的1 i 要- 个方面是: w e b
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新乡职业技术学院《分子细胞生物学专论》2023-2024学年第二学期期末试卷
- 浙江横店影视职业学院《流体输配管网课程设计》2023-2024学年第一学期期末试卷
- 浙江省慈溪市六校2024-2025学年高中毕业班联考生物试题含解析
- 湖南省长沙市天心区长郡中学2024-2025学年高三3月月考生物试题理试卷含解析
- 山西省晋南地区达标名校2025届初三调研试题(一)生物试题含解析
- 浙江省金华市义乌市2025届高三下学期第十二次重点考试历史试题含解析
- 新疆新源县2025年高中毕业生五月供题训练(二)化学试题含解析
- 星海音乐学院《合成生物技术》2023-2024学年第二学期期末试卷
- 山东省济宁地区(SWZ)重点中学2025年初三下学期第八次模拟考试物理试题试卷含解析
- 江苏省南京玄武区十三中学集团科利华2024-2025学年初三考前全真模拟密卷数学试题试卷(6)含解析
- 2023届高考作文模拟写作:“成器”和“不器”导写及范文
- GB/T 8237-2005纤维增强塑料用液体不饱和聚酯树脂
- GB/T 14713-2009旋切机通用技术条件
- 低成本自动化的开展与案例课件
- 不予受理反诉民事上诉状(标准版)
- 高中英语语法之虚拟语气(课件3份)
- 粤教版2022年小学六年级科学下册期中测试试卷及答案2022-2023
- 北师大六年级下册数学第三单元《图形的运动》教学设计
- 国际石油合作主要合同模式课件
- 桥梁加固改造工程施工质量管理体系与措施
- 第二十六章慢性肾小球肾炎演示文稿
评论
0/150
提交评论