




已阅读5页,还剩55页未读, 继续免费阅读
(系统工程专业论文)用户个性化信息检索模型的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 信息作为一种资源正在经济和社会发展中发挥着越来越大的作用,信息资源 的开发、利用和管理已经成为组织和个人获得竞争力的重要手段。随着 i n t e r n e t i n t r a n e t 的广泛应用,越来越多的信息以电子化方式存放在网上,但是信 息获耿手段的提高并没有满足信息增长的需要,导致了“信息过载”和“资源迷 向”现象。虽然有许多信息检索和过滤工具被开发出来,然而,传统的搜索引擎 信息服务系统没有有效的手段理解用户准确的信息需求,缺乏智能和个性。 本文针对利用现有的搜索引擎进行信息检索的过程中存在的查准率低和用 ,无法跟踪网页信息变化的缺点,提出面向用户的个性化信息检索服务理念,在 客户端建立基于关键词表的用户个性化信息检索模型,通过用户个性化信息检索 模型内部各功能模块之问的通信协作达到面向用户的个性化主动信息检索服务。 本文的主要工作是在客户端建立基于用户偏好关键词表的用户个性化信息 检索模型,包括分类词典、学习模块、用户行为监测模块、i n t e m e t 变化检测模 块及文档分析与信息过滤模块,并通过各模块之间的通信协作来实现用户查询提 问时、信息检索过程中和检索结果过滤时用户偏好信息的加载,来提高检索结果 的精度和跟踪网页信息的变化,从而实现个性化信息服务。 实验结果证明了通过建立用户模型在客户端加载用户偏好信息对提高查准 率是有效的,并能代替用户跟踪网页信息的变化,实现个性化信息服务的目标。 关键词:用户模型;关键词表;分类字典;个性化信息检索 a b s t r a c t a sak i n do fr e s o u r c e ,i n f o r r n a t i o ni sp l a y i n gag r e a tr o l ei nt h ed e v e l o p m e n to f e c o n o m ya n ds o c i e t y , a n di t sd e v e l o p m e n t ,u s e ,a n dm a n a g e m e n ta r eh a v i n gb e e na r t i m p o r t a n tm e t h o dw i t hw h i c ho r g a n i z a t i o na n dp e r s o nt og a i nc o m p e t i t i o n w i t ht h e b r o a da p p l i c a t i o no fi n t e r n e t m o r ea n dm o r ei n f o r m a t i o ni s l e f to ni n t e m e ta sa n e l e c t r o n i cr e s o u r c e w h i l et h em e a n so fj n f o r m a t i o na c q u i s i t i o ni sf a ra w a yf r o mt h e d e m a n do fi n f o r m a t i o ni n c r e a s e t h u s r i c hd a t a a n d “p o o r i n f o r m a t i o n ”h a p p e n e d a l t h o u g hm a n yt o o l sf o ri n f o r m a t i o nr e t r i e v a la n di n f o m a a t i o nf i l t e r i n gh a v eb e e n d e v e l o p e d ,t h e ya r es h o r to fp e r s o n a l i z a t i o na n di n t e l l i g e n c e ,a n dc a n n o tc a p t u r e l l s e r si n f o r m a t i o nd e m a n d e x a c t l y i nv i e wo ft h es i t u a t i o nt h a te x i s t i n gs e a r c he n g i n e sc a n n o tf o l l o wu pt h ec h a n g e o fw e b p a g ea n dt h e i rl o w p r e c i s i o ni ni n f o r m a t i o nr e t r i e v a l ,t h ed i s s e r t a t i o ns u g g e s t s a ni d e ao f p e r s o n a l i z e di n f o r m a t i o nr e t r i e v a ls e r v i c e ,a n de s t a b l i s hau s e rm o d e lf o r p e r s o n a l i z e di n f o r m a t i o nr e t r i e v a lb a s e do nu s e rp a r t i a l n e s sk e y w o r dl i s to nc l i e n t s e r v e r , w h i c hc a ns u p p l yp e r s o n a l i z e di n f o r m a t i o nr e t r i e v a ls e r v i c ef o ru s e rw i t ht h e c o m m u n i c a t i o n sa n dc o l l a b o r a t i o no f a l lm o d u l e so f i t t h ed i s s e r t a t i o ni sf o c u so n e s t a b l i s h i n g au s e rm o d e lf o r p e r s o n a l i z e d i n f o r m a t i o nr e t r i e v a lb a s e do nu s e r p a n i a l n e s sk e y w o r dl i s t ,i n c l u d i n gc l a s s i f i e d d i c t i o n a r y , s t u d ym o d u l e ,u s e rb e h a v i o rm o n i t o rm o d u l e ,i n t e r a c tc h a n g ed e t e c t i n g m o d u l e ,d o c u m e n t a n a l y s i s a n di n f o t l n a t i o n f i l t e r i n g m o d u l e a n dw i t h t h e c o m m u n i c a t i o n sa n dc o i l a b o r a t i o no ft h e s em o d u l e s t h em o d e lo b t a i n so ni o a do f u s e rp a r f i a l n e s si n f o r m a t i o nw h i l ei ni n q u i r i n g ,r e t r i e v i n ga n dr e s u l t sf i l t e r i n g t h u s t h ep r e c i s i o no fi n f o r m a t i o nr e t r i e v a li n c r e a s e s ,a n di tc a r lk e e pu pw i t ht h ec h a n g e o f w e b p a g e ,a n dp e r s o n a l i z e di n f o r m a t i o nr e t r i e v a ls e r v i c er e a l i z e d e x p e r i m e n t ss h o w t h a tt h eu s e rm o d e lf o rp e r s o n a l i z e di n f o r m a t i o nr e t r i e v a li s e f f e c t i v eo ni n c r e a s i n gp r e c i s i o n ,a n di tc a nf o l l o wu pt h ec h a n g eo f w e b p a g ef o ri t s u s e r , g a i nt h eo b j e c to f p e r s o n a l i z e di n f o r m a t i o ns e r v i c e k e y w o r d s :u s e rm o d e i ;k e y w o r dl i s t :c ia s s j f i e dd jc t i o n a r y :p e r s o n a ijz e d l n f o r m a t i o f fr e t r i e v a l 用户个性化信息检索摸型的设计与实现 1 引言 1 1 问题的提出 信息化社会中,信息对日常生活起到了越来越重要的作用。随着i t 技术的 发展,人们可以方便地接触到大量的信息。但是人们也感觉到,目前最大的问题 不是信息的缺乏或是不足,而是信息量的严重膨胀对信息查询的困扰。由于不同 用户的信息需求是不同的,怎样对日益庞大的数据、信息进行处理,在浩如烟海 的信息资源中找到符合个性需求的信息,同时如何管理那些有用的信息越来越引 起人们的重视。 1 i n t e m e t 上信息资源的特点 i n t e m e t 上信息资源具有以下特点: ( 1 ) 内容广泛,类型多样,涉及到人类生活的各个领域。 因特网将各种信息内容如数据库、电子公告板、专业小组讨论、电子书刊等 集中在统一易用的用户界面上,消除了地理、文化、语言和时间上的限制,使分 布在世界各地不同主机的信息资源能够方便地为用户所存取与利用。 同时因特网又是当代信息存储和传播的主要媒介之一,也是个巨大的信 息、资源库。其内容包罗万象,有文本、图象、声音、视频、软件、数据库等信 息,覆盖了不同学科、不同领域、不同语言的信息资源。因此,因特网资源是一 个多媒体、多类型和多语种的信息混合体。并且数据和服务的类型每天都在大量 增加。 ( 2 ) 更新速度快。 在因特网上,信息资源的内容、地址、链接经常处于变动之中,绝大多数的 信息定期更新,有些信息的内容几乎每时每刻都在更新。信息资源的改变、地址 的移动甚至消亡缺乏明确的指引。 ( 3 ) 信息重复率高。 各站点间存在着大量的重复的信息,造成信息查询的过程中对相同信息的重 复检索,浪费网络资源和用户的时问。 ( 4 ) 信息结构化程度低。 因特网是在自愿的基础上,通过统一的t c p i p 协议将不同的网络连接起来 的,它是一个丌放性全球分布式网络。因特网的资源分布在全球各个角落,众多 的服务器采用不同的操作系统、数据结构、操作界面等,并且网上资源没有统一 的组织管理和规范结构。从局部来看网络资源是有序的,但整体却处于无序状态。 用户个性化信息检索模型的设计与实现 ( 5 ) 信息过载,资源迷向。 随着科学技术进步,人类对自然界和人类社会本身的认识不断深入,人类知 识的积累也随之激增。另一方面,由于因特网的广泛性和开放性,在因特网上发 布信息极为容易而且不受限制,无论任何单位、团体或是个人只要具各上网条件 便可自由地在网上发布信息。这两者都加剧了因特网信息量的急剧膨胀。因此, 如何快速、正确地从浩瀚的信息资源中寻找所需要的信息己经成为困扰用户的一 大难题,这就是所谓的“信息过载,资源迷向”( r i c h d a t a ,p o o r i n f o r m a t i o n ) 问题”。 这一方面使得我们的信息空间更加异彩纷呈,并拓宽了人们的视野:但另一 方面,有限的个性化信息却显得更加分散,从而导致人们面临庞大的信息空间所 感到的信息过载和资源迷向。所以,现有的搜索引擎所能提供的功能难以满足人 们的需要。 2 传统的搜索引擎在i n t e r n e t 信息获取中存在的问题 i n t e r n e t 上信息资源的现状使得搜索引擎( s e a r c he n g i n e ) 成为人们离不开 的获取网络资源的方式。目前,搜索引擎己经成为因特网信息检索方式的主流。 据c n n i c 于2 0 0 0 年7 月2 7 同发布的统计资料,搜索引擎的使用已经占到网络 应用的5 5 9 l ,成为中国当前第二大互联网应用,仅次于收发e m a i l ”。 搜索引擎的目的是帮助用户寻找资源,在i n t e r n e t 环境下其典型实现是基于 关键词匹配的信息检索机。现有的i n t e r n e t 搜索引擎拥有极少量的知识,并且是 面向最一般的用户模型。不划分知识领域、不对用户建立任何描述以及使用关键 词匹配的交互方式都限制了搜索引擎的使用效率。因此,搜索引擎在经历了从人 工搜索引擎到自动搜索引擎的过程后,逐步开始向智能化方向发展,但是由于它 运行原理、检索机制等自身固有的特点,使得虽然它在定程度上缓解了人们查 询信息的难题,但还存在一些缺点和不足,具体如下: ( 1 ) 搜索引擎将信息的收集和查询截然分开。系统在收集信息时不知道用户 究竟需要付么样的信息;当用户向系统查询时,系统也并不知道哪些信息对用户 是最新信息,哪些是过时和无用的信息,信息的收集和查寻缺少有机的结合。 ( 2 ) 网络信息内容覆盖面很广,形式各异,而搜索引擎对所有用户提供相同 的界面和检索策略。实际上不同用户或同一用户在不同时刻对信息需求的侧重是 不一样的,搜索引擎不能体现用户的信息需求个性。 ( 3 ) 搜索引擎信息服务仍未摆脱“p u l l ”( 拉) 方式,而未来的信息服务则是 基于特定查询要求的“p u s h ”( 推) 方式。 用户个性化信息检索模型的设计与实现 ( 4 ) 网络信息是大量的、动态的。搜索引擎的机器人( r o b o t ) 只能在由系统 管理员确定的一定时间间隔内跟踪特定信息,不能保证信息的及时更新,产生 “错”链接和“死”链接。随着网络信息数量的指数级增长,引擎数据库急剧膨 胀,检索速度将会变慢。 搜索引擎的上述缺点使得它在信息检索过程中存在以下问题: ( 1 ) 查准率低。基于传统搜索引擎进行搜索,不同的用户输入相同的关键字 得到的搜索结果往往是一样的,而由于用户背景、偏好的不同,所关心的内容又 是有很大差别的,虽然搜索引擎返回大量的查询信息,但对于每个用户而言,可 用信息又很少,相对于具体用户而言,搜索引擎返回的查询结果就包含了大量的 噪声信息。而且返回结果并不是按用户需求相关度来排序。从大量的返回信息中 寻找对自己相关的信息,又会浪费用户很多时间和精力。 ( 2 ) 查全率低。而由于现有的搜索引擎对i n t e r n e t 的覆盖率又是有限的( 目前 查全率最高的搜索引擎对i n t e m e t 的覆盖率也只有2 0 左右) ,所以又会漏掉许 多具体用户感兴趣的信息。 ( 3 ) 无法跟踪网页信息的变化。由于网络上的信息是动态变化的,用户每一一 次检索得到的只是i n t e r n e t 在某个瞬间的快照而已。当用户检索到了自己关心的 网页后,往往还想跟踪网页内容的变化,一起得到更多的信息。这就需要用户不 时地返回该网页,而当用户关心的网页多的时候,这对于用户而言是很麻烦的。 因为信息的更新是不可预测的,你根本就无法知道该页面何时更新、内容又有何 变化,又没有特别的通知,只能等待再次登陆该网页才能发现有没有变动,这浪 费了用户大量的时间、金钱和精力。 3 用户个性化信息检索方法的提出 当前,面对网络信息服务的现状,人们寻求一种将信息用户感兴趣的信息主 动推荐给用户的服务方式。用户背景不同,其所关心的领域也各不相同。如何将 这利嗟异和偏好体现在信息检索中,减少垃圾信息,提高鸯准率,进而为用户提 供一种一对一的信, g n 务,这种信息服务就称为个性化信息服务。数据挖掘领域 将其理解为二次挖掘。 只有实现信息服务的个性化,使用用户的个性信息去收集信息、排列信息、 整理信息,才能做到提高搜索精度,节约用户获得需要信息的时问。 要真正实现个性化的信息服务,就应该对用户的浏览习惯,个人爱好,知识 领域,学术领域,及工作领域进行研究、分类。由于个人在日常的工作生活中接 触! 到越来越多的信息,也需要用越来越多的信息来为他的工作及决策服务,因而 用户个性化信息检索模型的设计宴现 怎样应用信息技术为个人进行信息服务越来越引起信息工作者的重视。真正意义 上的信息查询个性化是在相同或是相近的信息资源当中,对两个不同用户的相似 要求,通过软件对用户个性化的学习,把获得的个性化知识应用于个人的信息搜 索过程中。这样软件在信息资源查询后返回的信息结果是不同的。另外系统还能 根据用户的查询请求和用户个性化的知识对查询结果自动地排序、分类和聚类, 然后把查询结果按一定的格式推送给用户。 1 2 国内外关于个性化信息检索的研究现状 目前国内外对个性化信息检索的研究取得一定的成就,实现了一些具有个性 化信息服务功能的检索系统或提出了个性化的信息服务的概念。 国外关于个性化信息检索主要是从人工智能的角度出发的,另外元搜索引擎 在个性化信息检索中也取得一定效果。 1 2 1 智能搜索引擎( i n t e i i i g e n ts e a r o he n g i n e ) 智能搜索引擎成功的典型代表是f a q f i n d e r 、f s a 和e l o i s e 。 f a q f i n d e r 是芝加哥大学开发的基于“问题库”的具有问答功能的智能搜索 引擎。在获知用户问题后,它查询f a q ( f r e q u e n c y a s k e dq u e s t i o n ) 文件以给出 比较合适的回答。f a qf i n d e r 的内核由五个互相联系的技术环节构成: ( 1 ) 基于统计方法建立f a q 文件,这是由f a qf i n d e r 中的工具s m a r t 完成的。 ( 2 ) 用一个由简单名词和动词短语构成的文法树分析用户的查询以得到一个 用于支持内容匹配的描述。 ( 3 ) 问题识别者( e u e s t i o n r e c o g n i z e r ) 操作文法树以辨识问题从属的类别。 ( 4 ) 使用语义网分析与概念匹配技术找出与用户查询最近似的问题。 ( 5 ) f a q f i n d e r 给用户返回其得到的匹配,如果没有近似的匹配,则将使用 一个启发式的策略”1 。 a r t h u ra n d e r s e n 的f s a ( f i n a n c i a ls t a t e m e n ta n a l y z e r ) 和e l o i s e ( e n g l i s h l a n g u a g e o r i t e n t e ds y s t e m f o re d g a r ) 专门用于搜索美国证券交易委员会的e d g a r 商业数据库。这两个系统中都内嵌了特定领域中的商业知识,并使用了推断 证明( p r e d i c t i o ns u b s t a n t i a t i o n ) 式的自然语言理解技术“1 。 i b m 的g l o b e n e t 是一个供i b m 职员处理用户咨询的智能信息检索系统。基 于规则的智能体被周期性地发出去搜集有关i b m 产品的信息,旦智能体携带 相关信息返回,g l o b e n e t 将根据规则和知识来组织这些信息。g l o b e n e t 可以根据 这些结构化的或非结构化的知识进行推理,它使用启发式的策略辨识问题的存 用户个性化信息检索模型的世计与实现 在,并通过简单的自然语言理解来判断其中是否有某些关键的字或短语“1 。 1 2 2 智能浏览器( i n t e l ii g e n tb r o w s e r ) 智能浏览器正是基于机器学习理论设计的智能系统,经过一定的训练后,它 可以成为某个领域中熟练的搜索专家,帮助用户在网络中查找信息。智能浏览器 的两个比较成功的实验原型是卡耐基梅隆大学开发的w e b w a t c h e r 和l e t i z i a 。 w e b w a t c h e r 是一个非常著名的导航器,它帮助用户在网上导航,同时该系 统通过对用户选择“链路”或站点跟踪学习,改善了导航质量。其学习算法属于 一种强化学习算法。w e b w a t c h e r 是运行在服务器上的系统,它介于用户与w w w 之间,用户在浏览器中通过键入一卜描述自己兴趣的主题词进入w e b w a t c h e r 的 主页面。w e b w a t c h e r 接受请求后用一个嵌入了w e b w a t c h e r 命令菜单的界面替换 掉当荫页面,使w e b w a t c h e r 伴随用户浏览网络。它将不断地给用户推荐一系列 站点并建立超链接。由于w e b w a t c h e r 运行在服务器上,所以它可以记录下数以 万计的用户数据来训练自己,从而不断更新知识。如果用户指示某次检索结果是 成功的,w e b w a t c h e r 会对每一个超链接用代表用户兴趣的关键词加以注释,并 存入知识库”1 。 为了不断提高搜索技巧,w e b w a t c h e r 采用了四种学习方法: ( 1 ) 基于信息检索频度的学习,即对每一个超链接加上一个权值项代表频度, 以统计用户使用的频率。 ( 2 ) 基于用户注释的学习。 ( 3 ) 通过对用户资料的分析建立一定的用户描述。 ( 4 ) q 一学习,即通过用户对已进入页面的价值评估进行学习。 在运行过程中,对于所接触的每一个超链接,w e b w a t c h e r 根据它估汁的用 户感兴趣的程度将其排列入一个表中,如果兴趣值超过一定的闽值,则向用户推 荐该链接。 不同于w e b w a t c h e r ,l e t i z i a 是一个运行在客户端的系统,它收集有关用户一 浏览习惯的信息,熟悉用户的兴趣爱好,并使用各种启发式策略对现有的知识进 行推理,从而实现了一个w e b 上有限资源的智能搜索。 l e t i z i a 综合使用了信息挑拣与信息过滤策略”1 。信息过滤使用的是一个被动 的用户模型,即由系统除去不太相关的资料:而信息挑拣则使用一个主动的用户 模型,用户的查询被设计成在一组相关的数据中进行的选择。尽管其开发者已认 识到理解自然语言的重要,l e t i z i a 的搜索分析能力目前只限于关键词匹配和对一 用户个性化信息检索模型的设计与实现 组感兴趣的链接按优先权顺序排列。 1 2 3 智能体( 1 n t e if i g e n ta g e n t ) 有关智能体的研究虽然还远谈不上成熟,但在过去的十年中确实有了很大的 发展,智能体技术已经开始商品化。按照l a n e 的定义,智能体是一个具有控制 问题求解机理的计算单元,网络中的智能体通常是一个专家系统、一个过程、一 个模块或一个求解单元。 与智能搜索引擎和智能浏赞器相比,用于网络的智能体是在空闲时间工作 的,它在不需要用户监督的情况下可以昼夜不停地运行。支持智能体独立工作的 技术主要包括: ( 1 ) 模式匹配和复杂的逻辑比较。 ( 2 ) 基于知识的快速推理系统。 ( 3 ) 继承其它智能体知识的能力。 ( 4 ) 当数据不完整时可以进行缺省推理的能力”1 。 一个成功的智能体系统是b r o w s e r b u d d y ,它是一个用于组织和链入w e b 页 面的基于规则的智能体。1 。经过整夜的信息搜索以后,它会在早上给用户提供一 个服务清单。在它的导引下,用户可以迅速进入那些需要长时间交互才能到达的 页面。 a g e n t w a r e 最近发布的a u t o n o m y 智能体是一个典型的学习智能体( l e a r n i n g a g e n t ) ,它使用神经网络( n e u r a ln e t w o r k ) 而不是关键词来识别信息的模式。 用户使用类似自然语言的描述将智能体限制在一个概念区域中,然后智能体在用 户的教导下不断训练,直至能有效地找到用户感兴趣的文档。a u t o n o m y 的核心 是c a m b r i d g en e u r o d y n a m i c s 开发的动态推理引擎( d y n a m i cr e a s o n i n ge n g i n e ) 。 它综合使用了神经网络与模糊逻辑( f u z z y l o g i c ) ,广泛地应用于数据挖掘( d a t a m i n i n g ) 。 b r e w e r b u d d y 和a u t o n o m y 都是通用的智能体,目前还开发了一系列用于在 w w w 上寻找特定信息的专用智能体软件,其中几个比较有名的系统是: ( 1 ) f i r e l y ,使用信息过滤技术来帮助用户查询他所喜爱的电影和音乐,它通 过对用户查询、搜索行为的数据统计来建立对用户的描述。 ( 2 ) c m u 的w e d o g g i e ,一个基于规则的系统,它可以按照用户的兴趣向用 户推荐网络资源。 ( 3 ) c m u 的n e w sw e e d e r ,一个智能的新闻阅读器,它基于机器学习的理论 用户个性化信息榆索模型的设计与实现 来学习用户的兴趣,查找新的页面和文挡。 ( 4 ) n e w s f i n d e r ,一个按用户描述搜索在线新闻的智能体1 。 ( 5 ) b a r g a i n f i n d e r ,专门用于检索低价位的c d 唱片的智能体。 国内对个性化网络信息检索也进行了相关的研究,如南京大学研制的 w e b a c c e s s 系统,它应用了机器学习、自然浯言处理、超文本等技术;清华大学 研制的p i n s 系统和b o o k m a r k 系统“2 “,它们能自动收集和记录用户的习惯和 兴趣,跟踪用户的信息需求“;采用“以网对网”技术的首信智能搜索引擎;基 于汉语的语法、词的上下文和语义等中文信息处理技术的“网典”、a i s s 系统; 基于用户个性要求的平方智能搜索引擎等。 但幽内的个性化网络信息搜索系统大多只是支持简单的自然语言理解和概 念检索,对机器学习、智能代理、信息挖掘等技术研究得很少。 网上智能信息检索是帮助人们快速获取信息的有效手段。然而,现有系统仍 然存在一些缺陷或不足,如非个性化检索方式适应用户兴趣变化的能力较差。 1 24 元搜索引擎 元搜索引擎( m e t a s e a r c he n g i n e ) ,被称为搜索引擎之上的搜索引擎。用户 只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独 立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。由 于采用了一系列的优化运行机制,能够在尽可能短的时间内提供相对全面、准确 的信息,而且即使不能完全满足用户需求,仍可以作为相对可靠的参考源进行扩 展搜索,因此成为倍受推崇的检索首选入口“。s a v v y s e a r c h 系统是元搜索引擎 的典型代表。 s a v v y s e a r c h 系统是一个中介搜索系统,是较早期的元搜索引擎之一,始建 - f 1 9 9 5 年五月,最后于美国科罗拉多大学建成。它采用基于经验学习的优化选 择搜索引擎的方法,具有智能选择多个远程搜索引擎以及与其交互的能力。最具 特色的是其个性化检索设茕服务,用户有机会从1 0 0 多个搜索工具中选择调用并 指定重要性系数( f i r s t 、m i d d l e 、l a s t ) ,建立自己的搜索模型。用户可选择显示 搜索引擎的所有搜索结果,默认值是每个搜索引擎返回2 0 个命中记录,并以相 关度排列输出。其思想是根据用户提供的术语以及以往搜索成功与失败的经验, 建立一种中介索引。当用户提交一项查询时,系统利用中介索引,分析影响性能 的时间因素( 或称为最佳查询时间) 和经验因素( 即某一个搜索引擎搜索某一类 信息最佳) ,优先选择效益好的搜索引擎进行信息检索,从而充分地利用了信息 7 用户个性化信息捡索模型的设计与实现 资源。简单的搜索界面允许用户选择搜索类目。支持a n d 和短语检索类型。 s a v v y s e a r c h 同时提供2 3 种语言版本,但其高级功能只适用于英文版“。 元搜索引擎的局限性主要体现在以下几个方面: ( 1 ) 检索性能的局限性。元搜索引擎实现检索语法转换的能力是有限的,而 且高级检索模式常常只是注册或定制检索中的一部分,更适用于单用户计算机环 境。另外,由于元搜索引擎不支持指定字段检索等特殊检索特性,不能发挥各个 独立搜索引擎的高级检索特色,影响了检索效果和质量。 ( 2 ) 调用搜索引擎的局限性。大部分元搜索引擎只支持调用a k a v i s t a 、e x c i t e 、 g o t o c o r n 、y a h o o ! 、i n f o s e e k 、l y c o s 等主要的搜索引擎,有许多大型搜索引擎 被排除在外。如大部分元搜索引擎不包括n o r t h e m l i g h t 、h o t b o t 等,影响了信 息搜索的覆盖面。 ( 3 ) 检索结果在数量上的局限性。检索速度的限制从一个侧面反映出了元搜 索引擎在检索结果的数量上的局限性,也就是意味着只能从各个独立的搜索引擎 中检索少量的最符合要求的命中记录,一般限定在i o 5 0 个之间,因此必然影 响了检索结果的全面往。 另外,还有的人从信息过滤的角度提出个性化信息检索的概念。比如,y u r i q u i n t a n a 提出了一种利用用户个性信息的智能的信息过滤系统。这个系统中用 户的个性信息包括用户访问过的网页、用来索引这些网页的标题及用户关于各个 网页的评价反馈( 不相关,有一些相关,非常相关) 。另外用户可以明确地表达 他感兴趣的一个或几个主题。因而这个系统记录了用户明确表达的偏好信息,山 系统从其浏览过的网页自动生成的实时变化的偏好信息,及用户对系统提供的网 页相关性的评价信息。此系统根据用户的个性信息来给用户提供一种特殊定制的 个性化的网页。 这些系统在一定意义上完成了用户个性信息的获得和应用。但是用户个性是 一个多维的、变化的范畴。对于浩如烟海的信息资源,如果仅仅把些有限的关 键词作为用户个性的主要特征,再利用这些关键词来进行检索,或是只是简单的 根据用户的信息需求设定来提供信息服务,是不足以来完成真正意义上的个性化 信息查询的。使用用户个性特征信息应综合作用于三方面: ( 1 ) 使用用户的个性信息来规范,修正用户的查询请求。 ( 2 ) 通过处理查询请求和用户个性信息用来指导信息的获取。 ( 3 ) 使用用户个性的信息来处理查询结果,如过滤和排序“”。 作者在分析传统搜索引擎检索i n t e m e t 上信息存在的上述不足,从充分利用 8 用户个性化信息检索模型的砹计与实现 用户偏好信息进行用户偏好表示的角度出发,提出本文论题用户个性化信息 检索模型。 1 ,3 本文的研究思路及所要做的工作 本文主要针对提高查准率和跟踪网页信息更新而设计,综合基于关键词表的 用户个性化查询和x m l 可扩展之优势,通过在客户端建立基于关键词表的用户 个性化信息检索模型,来实现个性化主动信息服务。具体工作主要体现在以下几 个方面: ( 1 ) 建立分类词典。分类词典收录了各领域最具有代表性的关键词,以及这 些关键词的扩展信息,并按照知识分类的方法将这些收录的关键词按树形结构存 储起来。由于x m l 与生俱来的可扩展性和良好的可操作性,分类词典采用x m l 编写。 ( 2 ) 建立用户偏好关键词表。用户偏好关键词表也即用户概貌,是用户模型 实现个性化信息服务的核心所在。它基于分类词典建立,关键词表中的关键词依 其权重大小反映用户偏好,并且用户偏好关键词表以关键词的形式载有用户背景 信息,系统就以关键词表作为来自系统的用户信息,来扩展和精化用户提问表达, 以达到检索结果更接近用户需求。对用户偏好关键词表的操作采用j d o m 实现。 ( 3 ) 设计变化检测模块。通过设计变化检测模块监视用户个性化信息库中用 户关心的i n t e m e t 信息有无变化,并将变化情况定时通知用户,从而代替用户跟 踪网页上信息的变化。 1 4 可扩展标记语言x m l 及其在本文中的应用 本文建立的用户个性化信息检索模型的侧重点是用户兴趣的表示,而本文对 用户兴趣的表示主要采用x m l 来实现的。因此,有必要对x m l 及其在本文中 的应用作一简要介绍。 1 什么是x m l x m l 是e x t e n s i b l e m a r k u p l a n g u a g e 的缩写,即可扩展标记语言。它是1 9 9 8 年w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 组织创建的一种针对网络应用的可扩展 的标记语言。具有数据描述功能、高度结构性及可扩展性“。 x m l 有两个先驱s g m l 和h t m l ,这两个语言都是非常成功的置标语 言,但是它j l 、 都在某些方面存在着与生俱来的缺陷。s g m l ( s t a n d a r dg e n e r a l i z e d m a r k u pl a n g u a g e ) 的全称是标准通用置标语言,它为语法置标提供了异常强大 的工具,同时具有极好的扩展性,因此在分类和索引数据中非常有用。但是, 用户个性化信息检索模型的砹计与实现 s g m l 非常复杂,并且价格昂贵,几个主要的浏览器厂商都明确拒绝支持s g m l , 使s g m l 在网上传播遇到了很大障碍。 相反,超文本置标语言h t m l ( h y p e r t e x t m a r k u pl a n g u a g e ) 免费、简单, 在世界范围内得到了广泛的应用。它侧重于主页表现形式的描述,大大丰富了主 页的视觉、听觉效果,为推动w w w 的蓬勃发展、推动信息和知识的网上交流 发挥了不可取代的作用。可是,h t m l 也有如下几个致命的弱点,这些弱点逐渐 成为h t m l 继续发展应用的障碍。 ( 】) h t m l 是专门为描述主页的表现形式而设计的,它疏于对信息语义及其 内部结构的描述,不能适应日益增多的信息检索要求和存档要求。 ( 2 ) i - i t m l 对表现形式的描述能力实际上也还非常不够,它无法描述矢量图 形、科技符号和一些其他的特殊显示效果。 ( 3 ) h t m l 的标记集日益臃肿,而其松散的语法要求使得文档结构混乱而缺 乏条理,导致浏览器的设计越来越复杂,降低了浏览的时间效率与空间效率。 正因为如此,1 9 9 6 年人们开始致力于描述一个置标语言,它既具有s g m l 的强大功能和可扩展性,同时又具有h t m l 的简单性。x m l 就是这样诞生的。 x m l 是s g m l 的一个子集。它继承了s g m l 的可扩展性,结构性好的特点, 同时又具备了简单,易于使用的特点,因此开始被广泛应用于数据表示和数据交 换。xml 使得现有的i n t e r a c t 协议和软件更为协调,从而简化了数据处理和传 输。 2 x m l 的主要特点 ( 1 ) 良好的可扩展性。x m l 标记是使用者自定义的。x m l 允许各个不同的 行业根据自己独特的需要制定自己的套标记,同时,它并不要求所有浏览器都 能处理这成千上万个标记,同样也不要求一个嚣标语言能够适合各个行业各个领 域的应用,这种具体问题具体分析的方法更有助于置标语言的发展。因此,x m l 文档具有可扩展性。这是x m l 最重要的特征。 ( 2 ) 内容与形式的分离。x m l 文档本身只定义了数据的结构和内容,并没有 定义数据的显示方式。至于数据以怎样的形式显示在终端设备上是由c s s 、x s l 等其他技术来做。x m l 将数据保存的格式与数据显示的方式分开,使得x m l 文件可以轻易地更换数据显示的方式,仅需改变x s l 的设置,用户就可以将同 一数据制作成h t m l 、p d f 、w m l ( w i r e l e s sm a r k u pl a n g u a g e ) 、h d m l ( h a n d t t e l dd e v i c em a r k u p l a n g u a g e ) 等不同格式,供不同的硬件显示。这样做 便于信息表现方式的修改,便于数据的搜索,使内容和显示各司其职,更加灵活。 用户个性化信息检索模型的眦计与实现 因此针对同一x m l 文档,可以使用不同的c s s 或x s l ,以提供多种表现形式, 这样便于在不同终端设备,或者面向不同的用户显示相应的内容。 ( 3 ) 遵循严格的语法要求。x m l 不但要求标记配对、嵌套,而且还要求严格 遵守d t d 的规定。这增加了网页文档的可读性和可维护性,也大大减轻了浏览 器开发人员的负担,提高了浏览器的时间空间效率。 ( 4 ) 便于不同系统之间信息的传输。x m l 文档本身是文本,这决定了x m l 可以方便地使用h t t p 传输,可以应用在i n t e r n e t 上。不同企业、不同部门中往 往存在着许多不同的系统,x m l 可以用作各种不同系统之间的交流媒介,是一 种非常理想的网际语言。 ( 5 ) x m l 没有版权限制,平台独立 x m l 是公开的标准,不依赖某厂商的应用程序。x m l 语法简单,可以被所 有的机器解读,并且独立于平台,这是x m l 应用广泛的原因之一。 ( 6 ) 具有较好的保值性。x m l 的保值性来自它的先驱之一s g m l 语言, 可以为文档提供5 0 年以上的寿命。 正是基于这些优点,国际标准化组织万维网联盟w 3 c ( w o r l dw i d ew e b c o n s o r t i u m ) 推荐x m l 作为第- - 4 t :网页发布语言”。 3 x m l 在本文中的应用 x m l 的应用主要有:内容管理( c o n t e n tm a n a g e m e n t ) 、网络代理、电子邮 件的收发与管理、智能型日历、个性化信息服务、电子商务。 x m l 最大的优势在于对各种数据的管理。包括数据的检索、数据的显示和 数据的交换。从这个意义上讲,x m l 及其周边技术是一个数据库管理系统 ( d b m s ) ,即它是数据的集合。从正面来说,x m l 提供了许多数据库所具备的 东西:存储( x m l 文档) ,模式( d t d ,x m ls c h e m a 语言) ,查询语言( x q u e r x p a t h , x q l ,x m l q l ,q u i l t 等等) ,编程接口( d o m 、s a x 、j d o m ) 等等。从反面来 说,它缺少一些真正的数据库所应具备的东西:高效的存储,索引,安全,事务 和数据一致性,多用户访问,触发器,在多个文件中查询等等。详细分析如下: ( 1 ) 用x m l 作数据库的优势: 自描述的。所用的标记描述了数据的结构和类型; 可扩展的。如果所需的数据一般都和其存储形式相同,则x m l 数据库的 可扩展性很好; 灵活的数据结构。能够以树型或图形结构描述数据; 可用的w e b 技术; 用户个性化情息榆索模型的设计与实现 确定并且被支持的语法标准; 读写x m l 文件的通用程序接口( s a x ,d o m ,j d o m ) 。 ( 2 ) 用x m l 作数据库的劣势: 冗余的。由于要对它进行解析和文本转换,所以数据访问速度较慢; 和通常的数据库不太一样,x m l 文本没有预定的结构。在很多情况下整 个x m l 文件被装迸内存,所以它只适用于小文件; x m l 里没有安全设置,所以你不得不对x m l 文件进行加密和解密; x m l 是以文本格式存储的,所以你不得不在存储到文本文件之前转换所 有的字段到文本格式。 本文正是用了x m l 作为数据库来编写分类词典和建立用户偏好关键词表。 由于分类词典和用户对偏好关键词表所需的数据一般都和其存储形式相同,且操 作对象都是小文件,而且是文本格式,不存在文本转换的问题。并且我们希望得 到良好的可扩展性和易操作性,以便对所取得的信息进行编辑、增减以适应个人 用户的需要,组织自己的数据库,所以x m l 是个合适的选择。 1 5 本文的组织结构 本文共分4 章。接下来的第2 章建立用户个性化信息检索模型的总体框架, 包括建立本模型的需求分析、功能介绍和模型设计。第3 章介绍模型各组成模块 程序实现。第4 章是本文所作的实验和对实验结果的分析。最后在总结与展望部 分中对本文所做工作及成果作一总结,并对个性化信息检索作一展望。 用户个性化信息检索模型的设计与实现 2 用户个- 性化信息检索模型的分析与设计 2 1 用户个性化信息检索模型需求分析 通过对现有的因特网信息资源检索工具的分析,可以看出,目前的检索工具 虽然包含了一定程度的智能化因素,一定意义上完成了用户个性信息的获得和应 用,但每种系统都只对某一方面问题给出较为理想的解决方案,而其他方面还存 在着一定的局限性。特别是针对网络环境下,如何使用用户的个性信息来规范、 精化用户的查询请求,通过处理查询请求和用户个性信息来指导信息的获取是目 前亟待解决的问题。本文就这些问题提出了一个利用用户个性化信息来提高搜索 引擎查准率
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论