




已阅读5页,还剩52页未读, 继续免费阅读
(计算机软件与理论专业论文)基于本体论的信息过滤技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 传统的信息过滤技术仅仅根据用户兴趣做信息过滤和推荐,难以满足用户的 要求。本文提出了一种基于本体论的信息过滤方法。把过滤用户分成两类:没有 经验的过滤用户和有经验的过滤用户。在用户模板的基础上,针对没有经验的过 滤用户,提出了话题模板;针对有经验的过滤用户,提出了附加用户模板。最终 的过滤,对于没有经验的过滤用户,根据用户模板和话题模板进行过滤:对于有 经验的过滤用户,根据用户模板和附加用户模板进行过滤。具体工作包括: 基于本体论构建用户模板。通过本体构建话题,用话题表示用户模板。实现 了关于用户模板信息的共享,是构建话题模板、附加用户模板的基础。 提出构建话题模板,表达用户公共需求。过滤用户中,一些用户没有经验, 不能准确的描述需求,不能得到好的过滤结果。在用户模板的基础上,构建话题 模板,辅助用户模扳,进行信息过滤,使用户获得更好的过滤结果。 提出构建附加用户模板,表达具有相似需求用户向过滤用户推荐的需求。过 滤用户中,一些有经验的用户,能够较好的表达自己的需求。但是这些有经验的 用户常常需要了解同行的用户的观点,即同行的需求。在用户模板的基础上,根 据与过滤用户需求相似的用户,构建附加用户模板,向过滤用户推荐需求信息, 辅助用户模板,进行信息过滤,使用户获得更好的过滤结果。 以量化的形式绘出了用户的分类。把从事某话题时间大于等于从事该话题的 时间均值的用户称作有经验的过滤用户,小于从事该话题的时间均值的用户作为 没有经验的过滤用户。 提出根据用户模板和话题模板过滤信息的方法。针对没有经验的过滤用户1 , 根据用户模板和话题模板进行信息过滤。用户模板、话题模板对过滤的作用给出 了一个适当的比例。 提出根据用户模板和附加用户模板过滤信息的方法。针对有验的过滤用 户,根据用户模板和附加用户模板进行信息过滤。用户模板、附加用户模板对过 滤的作用给出了一个适当的比例。 关键词:信息过滤,本体论,用户模板,话题模板,附加用户模板 a b s t r a c t t r a d i t i o n a li n f o r m a t i o nf i l t e r i n gt e c h n i q u e s ,w h i c ht a k et h ei n t e r e s t so fu s e r si n t o a c c o u n to n l y ,f a i lt os a t i s f yu s e rr e q u i r e m e n t s i nt h i st h e s i s ,a ni n f o r m a t i o nf i l t e r i n g b a s e do no n t o l o g yi si n t r o d u c e d u s e r so ff i l t e r i n ga r ec l a s s i f i e dt w ot y p e s :( 1 ) n o e x p e r i e n t i a lu s e r so ff i r e r i n g ,( 2 ) e x p e r i e n t i a lu s e r so ff i l t e r i n g ,b a s e do nu s e rp r o f i l e , t o p i ct e m p l a t ei sb r o u g h tf o r w a r df o rn oe x p e r i e n t i a lu s e r so ff i l t e r i n ga n da d d i t i v e u s e rp r o f i l ei sb r o u g h tf o r w a r df o re x p e r i e n t i a lu s e r so ff i l t e r i n g i n f o r m a t i o ni s f i r e r e db a s e do nu s e rp r o f i l ea n dt o p i ct e m p l a t ef o r1 3 0e x p e r i e n t i a lu s e r so ff i l t e r i n g i n f o r m a t i o ni sf i l t e r e db a s e do nu s e rp r o f i l ea n da d d i t i v eu s e rp r o f i l ef o re x p e r i e n t i a l u s e r so ff i l t e r i n g t h eo v e r a l lr e s e a r c he f f o r th a sb e e nb r o k e nd o w nt oas e to f d e t a i l e d r e s e a r c hw o r k s : u s e rp r o f i l ei sc r e a t e db a s e do no n t o l o g y u s e rp r o f i l ei se x p r e s s e db yt o p i c s , w h i c hi sd e f i n e db yo n t o l o g y i n f o r m a t i o ns h a r ea b o u tu s e rp r o f i l ei sr e a l i z e d b a s e d o nu s e rp r o f i l e ,t o p i ct e m p l a t ea n da d d i t i v eu s e rp r o f i l ea r ec r e a t e d t o p i ct e m p l a t e ,w h i c he x p r e s s e su s e r s c o m m o ni n f o r m a t i o nd e m a n d ,i sb r o u g h t f o r w a r d i nu s e r so ff i l t e r i n g ,s o m en oe x p e r i e n t i a lu s e r sc a n n o te x a c t l ye x p r e s st h e i r d e m a n d ,c a n n o tg e tg o o dr e s u l t so ff i l t e r i n g b a s e do nu s e rp r o f i l e ,t o p i ct e m p l a t e w h i c hi sc r e a t e d ,a s s i s t su s e rp r o f i l ef o ri n f o r m a t i o nf i l t e r i n g u s e r sw i l lg e tg o o d r e s u l t so ff i l t e r i n g a d d i t i v eu s e rp r o f i l e ,w h i c he x p r e s s e si n f o r m a t i o nd e m a n dr e c o m m e n d e db yu s e r s w h o s ed e m a n di sa l i k e ,i sb r o u g h tf o r w a r d i nu s e r so ff i l t e r i n g ,s o m ee x p e r i e n t i a l u s e r sc a ne x p r e s s l ye x p r e s st h e i rd e m a n d b u tt h e s eu s e r su s u a l l yn e e dt oc o m p r e h e n d o t h e r sv i e w o t h e ru s e rd e m a n d b a s e do nu s e rp r o f i l e ,a d d i t i v eu s e rp r o f i l e i s c r e a t e db ym e a n so fu s e r sw h o s ed e m a n di ss i m i l a rt o u s e rd e m a n do ff i l t e r i n g a d d i t i v eu s e rp r o f i l er e c o m m e n d si n f o r m a t i o nd e m a n df o ru s e ro ff i l t e r i n g ,a n d a s s i s t su s e rp r o f i l ef o ri n f o r m a t i o nf i l t e r i n g u s e r sw i l lg e tg o o dr e s u l t so ff i l t e r i n g f o r m u l ai sq u a n t i t a t i v e l yg i v e nt oj u d g eu s e rt y p e au s e rw h o s e t i m ei se n g a g e db y at o p i ci sb i g g e rt h a no re q u a lt ot h ea v e r a g et i m ee n g a g e db yt h et o p i ci se x p e r i e n t i a l , o re l s en o te x p e r i e n t i a l a ni n f o r m a t i o nf i l t e r i n gm e t h o d ,b a s e do nu s e rp r o f i l ea n d t o p i ct e m p l a t e ,i s b r o u g h tf o r w a r df o rn oe x p e r i e n t i a lu s e r so ff i l t e r i n g i nf i l t e r i n g ,u s e rp r o f i l e ,t o p i c t e m p l a t ea r ea r r a n g e dap r o p e rf u n c t i o n a ni n f o r m a t i o nf i l t e r i n gm e t h o d ,b a s e do nu s e rp r o f i l ea n da d d i t i v eu s e rp r o f i l e ,i s b r o u g h tf o r w a r df o re x p e r i e n t i a lu s e r so ff i l t e r i n g i nf i l t e r i n g ,u s e rp r o f i l e ,a d d i t i v e u s e rp r o f i l ea r ea r r a n g e dap r o p e rf u n c t i o n k e y w o r d :i n f o r m a t i o nf i l t e r i n g ,o n t o l o g y , u s e rp r o f i l e ,t o p i ct e m p l a t e ,a d d i t i v e u s e rp r o f i l e 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期 i n j 论文工作的知识产权单位属于西北火学。学校有权保留并向国家有关部门或机 构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学铰可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等 复制手段保存和汇编本学位论文。同时,本人保证,毕业后结合学位论文研究课 题再撰写的文章一律注明作者单位为西北大学。 保密论文待解密后适用本声明。 学位论文作者签名:鲰一指导教师签名:殖 d 岁年月了h吐年多月7 日 西北大学学位论文独创。睫声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及耿得的 研究成果。据我所知,除了文中特别加以标i t - 矛u 致谢的地方外,本论文不包含其 他人已经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文巾作了明确的况明并表示谢意。 学位论文作者签名 dy 年 小队。 、, f 疡, 吗卵 1 1 研究背景 第一章、引言 网络上蕴涵着海量的信息,面对信息汪洋大海,人们往往感到束手无策,出 现所谓的“信息过载”问题。如何帮助人们有效地选择和利用所感兴趣的信息, 是大家普遍关心的问题。 以搜索引擎为代表的信息检索技术是帮助人们找到合适信息的最直接手段。 信息检索技术能根据用户的查询返回合适的信息,它在一定程度上解决了信息过 载的问题。因此引起了广泛的兴趣。然而单是通过搜索引擎并不能完全满足用户 对信息的需要。随着人们对信息检索的应用,发现信息检索里面出现了许多的问 题 1 :1 ) 在使用搜索引擎时,只要使用的关键词相同,所得到的结果就相同,它 并不考虑用户的信息偏好和用户的不同,对专家和初学者一视同仁,同时返回的 结果成千上万良莠不齐使得用户在寻找自己喜欢的信息时有如大海捞针。2 ) 网 络信息是动态变化的,用户时常关心这种变化。而在搜索引擎中,用户只能不断地 在网络上查询同样的内容以获得变化的信息,这花赞了用户大量的时间。在信息 检索上的基础上,逐步的出现了信息过滤( i n f o r m a t i o nf i l t e r i n g ) 的技术。 人们普遍认为信息过滤是解决“信息过载”问题的必要手段。 信息过滤的基本原理是将信息表示成一定的格式,并且将用户对信息的需求 也表述为用户兴趣特征,把两者比较进行过滤,并将过滤的结果发布给用户,用 户的评价或使用情况则反馈回去以修改用户兴趣特征或过滤规则。与搜索引擎不 同,信息过滤可满足用户长期的信息需求,并能屏蔽有害信息、主动发布用户感 兴趣的信息,因此近年来信息过滤引起了越来越多的研究者关注,信息过滤为核 心技术的个性化服务系统也在电子商务等商业系统中得到了广泛的应用。 人们对同一事物观察角度有所不同,所毗对同一概念具有多种表达形式。同 时,很多用户很难准确的描述自己的信息需求。即使一些用户能较好的描述自己 的信息需求,也想了解同行用户的观点。另外,在文章撰写时因修辞的缘故,为 了避免用词重复,常常出现同义替换现象。为了解决这些问题,提出了基于本体 论的信息过滤方法。把过滤用户分成两类:没有经验的过滤用户和有经验的过滤 用户。在构建用户模板时,引入了本体论,实现用户对用户模板信息的共享,方 便用户与系统之间的交互。在用户模板的基础上,针对没有经验的过滤用户,提 出话题模板:针对有经验的过滤用户,提出附加用户模板。最终的过滤,对于没 有经验的过滤用户,根据用户模板和话题模板进行过滤:对于有经验的过滤用尸, 根据用户模板和附加用户模板进行过滤。 1 2 本文的主要工作 本文提出了基于本体论的信息过滤方法,并对该方法的关键技术进行了研 究,论文具体工作包括:基于本体论构建用户模板、构建话题模板、构建附加用 户模板、以量化的形式给出了用户分类、结合用户模板和话题模板的过滤算法、 结合用户模板和附加用户模板的过滤算法。 基于本体论构建用户模板 通过本体构建话题,用话题表示用户模板。实现信息共享,是构建话题模板 和附加用户模板的基础。 提出构建话题模板的方法 过滤用户中,一些用户没有经验,不能准确的描述信息需求,不能得到好的 过滤结果。为了给没有经验的用户提供好的过滤结果,根据同话题的用户模板, 构建话题模板,表示用户共同兴趣。辅助用户模板,进行信息过滤。 提出构建附加用户模板的方法 过滤用户中,一些有经验的用户,能够较好的表达自己的需求。但是这些有 经验的用户常常需要了解同行的用户的观点,即同行的需求。因此,提出了附加 用户模板,表示具有相似需求的用户向过滤用户推荐的需求。辅助用户模板,进 行信息过滤。 以量化的形式给出了用户的分类 把从事话题时间大于等于从事话题时间平均值的用户称作有经验的过滤用 户,小于从事话题时间平均值的用户为没有经验的过滤用户。 提出根据用户模板和话题模板过滤信息的方法 针对没有经验的过滤用户,根据用户模板和话题模板进行过滤,即由用户模 板、文档的相似性和话题模板、文档的相似性共同决定过滤结果。 提出根据用户模板和附加用户模板过滤信息的方法 针对有经验的过滤用户,根据用户模板和附加用户模板进行信息过滤,即由 用户模板、文档的相似性和附加用户模板、文档的相似性共同决定过滤结果,构 造计算公式。 用户模板、话题模板、附加用户模板对过滤计算的作用给出了一个合适的比 例 对于没有经验的过滤用户,根据用户模板和话题模板进行过滤,在过滤中, 用户模板、话题模板的作用给出了一个合适的比例;对于有经验的过滤用户,根 据用户模板和附加用户模板进行过滤,在过滤中,用户模板、附加用户模板的作 用给出一个合适的比例。 1 3 本文的组织 论文分为六章,第二章信息过滤及本体论的概述;第三章基于本体论的信息 过滤技术研究。第四章基于本体论的信息过滤系统的应用;第五章实验及结果分 析;第六章对全文工作进行总结和迸一步的工作。 第二章、信息过滤及本体论的概述 2 1 信息过滤的概述 信息过滤技术 2 是一种系统化的方法,将用户需求与动态信息流进行匹配 计算,从信息流中抽取出符合用户个性化需求的信息并送给用户。 2 1 1 信息过滤的研究发展 信息过滤的历史可以追溯到上世纪5 0 年代,1 9 5 8 年,l u h n 提出了“商业智 能系统”的概念。该系统中,图书馆工作者为每个用户创建一个符合用户信息需 求的新文本清单。同时,记录下用户所订阅的文本,用于更新用户的需求模型。 这样的构想事实上已经包含了信息过滤的基本要素,它与目前的信息发送系统相 比只是实现技术的不同 3 】。 s d l ( s e l e c t d i s s e m i n n a t i o n o f l n f o r m a t i o n ) 被认为是信息过滤的前身,2 0 世 纪6 0 年代末,对s d i 的广泛兴趣导致了a m e r i c a ns o c i e t yf o ri n f o r m a t i o ns c i e n c e 创建了s i g s d i ( s p e c i a li n t e r e s tg r o u p s d i ) 特别兴趣小组。h o u s e m a n 在1 9 6 9 年提出的报告中研究了6 0 个可运行的系统,其中有9 个系统服务的用户在1 0 0 0 以上。这些系统基本上使用了l u h n 的模型【3 】。 1 9 8 2 年,d e n n i n g 提出了“信息过滤”的概念,他的目的在于拓宽传统的信 息生成与信息搜集的讨论范围。他描述了一个信息过滤的需求例子:对于实时的 电子邮件,利用过滤机制,识别出紧急的邮件和一般例行邮件。他采用了一个“内 容过滤器”来实现过滤。其中采用的主要技术有层次组织的邮箱、独立的私人邮 箱、特殊的传输机制、阀僮接收、资格认证等 3 。 1 9 8 7 年,m a l o n e 等人发表了较有影响的论文 4 ,并且研制了系统 “i n f o r m a t i o nl e n s ”。他提出了三种信息选择模式,即认知、经济、社会。所 谓的认知模式相当于d e n n i n g 的“内容过滤器”,即基于内容的过滤 ( c o n t e n t b a s e df i l t e r i n g ) ;经济模式相当于d e n n i n g 的“阀值接收”思想; 社会模式是他最重要的贡献,目前也称之为协作过滤( c o l l a b o r a t i v e f i l t e r i n g ) 。在社会过滤系统中,文本的表示是基于以前读者对于文本的标注或 评价,通过交换信息,自动识别具有共同兴趣的团体。 由于美国政府开始对信息过滤的研究给予大规模支持,这之后信息过滤开始 得到迅速发展。l9 8 9 年,d a p a r ( t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ) 支持了第一届m u c 会议( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) ,极大地推动了信 息过滤的发展。它将信息抽取技术支持信息的选择,在将自然语言处理技术引入 文本过滤研究方面进行了积极的探索。1 9 9 0 年,d a r p a 发起了t i p s t e r 项目, 目的在于利用统计技术进行消息预选,然后再应用复杂的自然语言处理。这个文 本预算过程称之为“文本检测”【3 】。 19 9 2 年,n i s t ( n a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y ) 与d a r p a 开始合作支持文本检索会议( t e x tr e t r i e v a lc o n f e r e n c e ,t r e c ) ,主要关于文本 检索和文本过滤的研究,t r e c 会议上两个传统的任务是路由寻径( r o u t i n g t a s k ) 和专利检索( a d h o ct a s k ) ,而过滤( f i l t e r i n gt r a c k ) 是路由寻径任务的重要子 项目。在t r e c 7 之前,过滤项目都是以大规模语料作为训l 练集,使每一个主题 ( t o p i c ) 都有相应的相关文档集,然后在新语料中进行测试。从t r e c 一7 开始 过滤项目再度细分,可以通过三种方式进行文本过滤,即适应性过滤( a d a p t i v e f i l t e r i n g ) 、批过滤( b a t c hf i l t e r i n g ) 和路由寻径( r o u t i n g ) 。t r e c 在最近的几 次会议中,着重于文本过滤的理论和技术研究以及系统测试评价方面,对文本过 滤的形成和发展提供了强有力的支持。目前t e r c 的过滤任务要求对用户的信息 需求自适应地、适时地从具有时序的文本流判断每篇文本是否相关,主要是模拟 时间要求很高的文本过滤应用。 在国内,文献【5 】描述了基于向量空间模型的文本过滤系统。该系统由训练 和自适应过滤两个阶段组成,在训练阶段,通过特征抽取和伪反馈建立初始的过 滤模板,并设置初始阂值;在过滤阶段,则根据用户的反馈信息自适应地调整模 板和阈值该系统参加了2 0 0 0 年举行的第9 次文本检索会议的评测,取得了很好 的成绩。 东北大学对中文文本过滤技术进行研究。文献【6 】描述基于概念扩充的文本 过滤模型,通过用户给出的关键字,系统自动扩充建立用户模板。文献 7 1 提出 了基于示例的用户信息需求模型的获取和表示。 2 1 2 信息过滤与信息检索的区别 信息过滤与信息检索的目标都是选取合适的信息,但二者的侧重点不同,在 使用频率、信息需求的表达、目标、数据库等方面存在差异。5 z n 2 i 羊n 的比 较了信息过滤与信息检索两者的区别,参考表2 1 。 表2 。l 信息过滤与信息检索的区别 信息过滤信息检索 使用频率 为有长时间信息需求的为一次性用户的搜索要 固定用户设计,并可被重求设计,目的是满足一次 复使用性的信息需要 信息需求的表达固定用户的需求表达为用户的需求表达为查询 用户兴趣特征 目标根据用户的兴趣特征,从 从数据库中选择匹配于 输入的数据流中筛选出 某个查询的信息项 无关的数据。或是从特定 的数据源中收集并发布 有用的数据 数据库处理动态的数据( 比如 处理相对静态的数据( 比 e - m a i l 消息) 如存放在光盘上的数据 库) 用户类型用户则需要被系统了解,对所服务的用户,系统本 系统具有该用户的模型,身并不了解一一任何可 通常是以用户兴趣特征访问系统的人都可以发 的形式保存布一个查询 系统的范围系统涉及到个人隐私这不涉及个人隐私这样的 样的社会性问题社会性问题 2 1 3 信息过滤的特点 1 9 9 2 年b e l k i n 和c r o f t 在文献【2 】中指出,信息过滤与其他的信息处理过程 相比较,其特点主要表现在: 1 ) 信息过滤系统是为非结构化或半结构化的数据设计的信息系统。数据库系 统包括的是非常结构化的数据,结构化不但指符合某一格式的数据,而且包含简 单数据类型的域。很难对文本的含义、形式及数据类型的各个成分进行类似数据 库字段的确切定义。 2 ) 信息过滤主要处理文本数据( 非结构化数据) 。如果包括其他诸如图像、 声音、视频等多媒体信息,过滤系统的处理对象更具有一般性,但要表示出它们 却很困难。 3 ) 信息过滤系统处理的数据量通常很大,至少是几g ( g i g a b y t e s ) 的文本 数据。因为每次发布新文献时,都需要将新文献与系统中现有的用户兴趣模型进 行相关性计算。 4 ) 信息过滤系统通常处理的是动态的流数据。比如远程新闻中心最新信息的 发布、权威期刊站点的新文献推荐等。在用户看来,整个过程是从数据流中剔除 掉与自己现有兴趣不相关的信息,而把与用户兴趣潜在相关的信息提供给用户, 用户兴趣在过滤过程中要求相对稳定的。这一点与信息检索正好相反,信息检索 中文档集是相对静态的,其用户信息请求随时都在变化,没有规律可循。 5 ) 信息过滤是基于用户兴趣模型的,而兴趣模型通常是经过长期的兴趣信息 研究得到的相对稳定的兴趣。 6 ) 信息检索是系统按照用户提出的查询指令查找符合条件的对应内容并把检 索结果组织起来返回给用户的运行机制,通俗地说就是“人找信息”。随着网络 通信技术和智能化技术的进展,另种因人而已的个性化主动信息服务形态 信息过滤技术已经产生,通俗地说就是“信息找人”。 2 1 4 信息过滤系统的分类 目前已有很多信息过滤系统。根据四个参数,文献【8 】给出了一个完整的分类 框架来详细地定义和刻画信息过滤系统的分类,参考图2 2 。 ( 1 ) 过滤操作的主动性区分主动过滤系统和被动过滤系统: 按过滤操作的主动性,可将信息过滤系统分为主动信息过滤系统的和被动信 息过滤系统的两种。主动信息过滤系统主动的为用户寻找相关的信息、自动将合 适的信息发布给它的用户。很多具有“推技术”功能的系统都属于这个类,如亚 马逊,c h i n a p u b 等a 被动的信息过滤系统是从输入的信息流中过滤掉不相关的 或有害的信息项。 图2 , 2 信息过滤系统分类图 ( 2 ) 过滤操作的发生地区分信息源过滤系统、服务器过滤系统和客户端过 滤系统 按过滤操作的发生地,可将信息过滤系统分为信息源过滤系统、服务器过滤 系统和客户端过滤系统三种,在第一类信息过滤系统中,用户需要将感兴趣特征 报告给信息的提供者,然后用户可以得到与此特征匹配的信息,典型系统是 d i a l o g 。在第二类系统中,过滤操作发生在服务器端,用户将自己的兴趣特征报 告给服务器,服务器收集信息并选择合适的信息发布给用户,这类系统的代表是 s i f t 、r a m a 。最后一类系统中,根据用户的兴趣特征,所有输入的信息项都经 过一个本地的过滤器检验,去掉无关或有害的内容,或对输入的信息项进行排序。 ( 3 )过滤方法区分认知过滤系统( 基于内容的过滤系统) 和社会过滤系统 ( 协作的过滤系统) 按过滤方法的不同可将信息过滤系统分为两大类,认知的过滤系统和协作的 过滤系统。认知的过滤方法,刻画信息的内容和潜在信息接受者的信息需求内容, 然后把信息的内容和信息接受者的需求内容进行匹配。该方法又称“基于内容的 过滤”。协作过滤是根据已知的用户兴趣和该用户兴趣相近的其他用户对信息的 评价,来预测用户对某项信息可能的兴趣度。实际上,协作过滤中也往往需要明 确的用户个人兴趣特征,由此来计算“邻居”( 与该用户兴趣相近的用户群) 并 加入到最后推荐中。目前很多信息过滤系统都综合采用两种方法。 ( 4 ) 获取用户知识的方法区分显示的过滤系统、隐式的过滤系统和混合式 的过滤系统 按获取用户兴趣特征的方法,信息过滤系统可被分成显示的过滤系统、隐式 的过滤系统和混合式的过滤系统三秘。显示方法主要包括预定义用户兴趣特征、 显示地获取用户反馈。显示方式可以减少系统学习负担,但人本身并不是可靠的 信息源,显示输入从用户角度来讲也并不十分友好。隐式的获取用户兴趣特征通 过记录用户的行为来获得用户兴趣,在这样的信息过滤系统中,用户对每个信息 项的反应被记录下来,从而获取用户对数据项的实际评价,并由此构建用户兴趣 特征。另一类获取用户兴趣特征的方法介于显示和隐式之间,这包括文档空间法 和原型推理法。文档空间法构造一个小的信息项集合,集合中的所有信息项都是 已经与用户兴趣相关的。新的信息项被检验时,计算它与前述相关信息项集的相 似性,若相似性大于某个阀值,则认为此信息项是用户感兴趣的,否则认为用户 对它不感兴趣。原型推理法要求用户提供明确的信息,系统根据这些信息将用户 划归到某个固定模板中去。基于这个模板可进行推理,对用户所提供的明确的特 征信息进行补充。 2 1 5 信息过滤组件 信息过滤系统包括四个基本组件( 参考图2 3 ) :数据分析组件:过滤组件; 用户建模组件;学习组件,参考文献【8 。 数据分析组件从信息提供者获得数据项,经过分析,把这些数据项表示成恰 当的格式( 例如,索引术语向量) 。格式化的数据项将进入过滤组件。 用户建模组件显示的、隐式的或者混合方式搜集用户个人信息和用户信息需 求,构建用户模板。用户建模也将进入过滤组件。 过滤组件是信息过滤系统的核心,把格式化数据项和用户模板匹配,然后决 定数据项是否相关。用户得到的相关数据项是判定相关的数据。用户的评价 即反馈被提供给学习组件。 学习组件为了进一步提高过滤的性能。由于用户建模的困难和用户信息需求 的变化,过滤系统必须包括一个学习过程,发现用户兴趣的变化,修改用户 模板。否则,用户模板的不精确影响过滤结果。 图2 3 信息过滤一股模型 2 1 6 信息的表示模型 为了让计算机能够理解信息,必须将信息转换为计算机可以识别的格式。在 信息过滤、信息分类以及信息检索等各种信息处理研究中,信息的表示模型是类 似的。常用的信息表示模型包括布尔模型、向量空间模型、概率模型、潜在语义 索引模型。下边分别给予介绍。 2 1 6 1 布尔模型 9 】 布尔模型是一种严格匹配模型。在标准的布尔模型中,文献采用如下的表达 形式:p2 ( w j ,w j :,1 ) 其中,n 是特征项的个数,为1 或0 ,分别表示特征项k 在文献i 中出现 或不出现。由此可见,布尔模型中的文献表示是向量空间模型中文献表示的特殊 形式,它只采用了二元权值。 布尔模型中的用户查询是由特征项和布尔运算符构成的布尔表达式表示a 布 尔运算符包括:a n d ( 与) 、o r ( 或) 、n o t ( 非) 。在实际应用中,通常将特征项的同 o 义关系用o r 联接,短语关系用a n d 联接,而限定关系则用a n d 或n o l 联接。 布尔模型中的检索判断,就是确定文献中的特征项能否使一个查询表达式 1 首先将q 中的查询项q ,用函数f ( p ,q ,) 替换。如果辞,在d ,中出现,则 f ( p ,q ) 的值为1 ,否则f ( 口,q ) 为0 。即如果乃表示特征项j ,则f ( p ,q ) 2 1 吃。 2 设t 和s 为任意的特征项,将由上述方法得到的表达式按下面的公式计算: f ( 毋,ta n ds ) 2 r a i n ( f ( 叠”,f ( d t ,s ) ) ; f ( p ,t o rs ) 。m i n i ( f ( p ,t ) ,f ( 口,s ) ) ; f ( d f ,n o t t ) 。1 f ( d ,t ) 布尔模型易于实现,检索速度快,几乎所有的商业站点都支持该模型 针对于标准的布尔模型中文献表达形式过于简单、检索条件过于严格而出现 的问题,人们对其采取了扩充和修改,提出了扩展的布尔模型。如s a l t o n 等人 在1 9 8 3 年提出的p 范式模型,它对文献向量和查询向量中的特征项加权,而 且允许对布尔表达式中的连接符加权,其权值的范围分别是 0 ,1 和 1 , 设文献向量为:p = ( w ,w f 。,) 。g f 和q ,分别表示特征项t 和s 在 用户查询中的权值,沿用标准布尔模型的相似度计算方法,则 f ( 谚,t ) 2 : :f 塑:型塑! 巡r f ( d , to rs ) 5 l i 葡_ 吣小 咝等掣r f ( p ,n o t t ) = 1 一f ( p ,t ) 其中。p 是查询布尔表达式中连接符的权值,其值域的范围是 1 ,c o 2 1 6 2 向量空间模型 s a l t o n 等人在六十年代提出了向量空i 司模型 1 0 j ,提出由关键词构成的向 量来表示文档。该模型中,文档被表示为在多维空间中一个向量: 虿= ( w l 。,w 2 ,一,w 巾) ,其中, 虿 表示第 i 个文档, u 。( = 1 ,2 ,l r l ) ( j = 1 ,2 ,1 r 1 ) 表示虿在第k 维上的值,l t l 是维的总数。 w k 一般采用t f i d f 公式或其他的某个变形( 如o k a p i 公式 1 1 ) 来获得: 标准t f - i d f 公式:= # ( ,虿) l 。g 器) 其中,群( 气,虿) 表示关键词f 。出现在文档z 中的次数。i d l 表示文档总数, n ( t k ) 表示关键词t k 在整个文档集合中出现的频率,即出现t 。的文档数。标准 t f i d f 公式是s a l t o n 在1 9 8 8 年提出,基本思想是两点( 1 ) t k 在虿中出现次数 越高,气对虿越重要:( 2 ) 气在整个文档集中出现次数越高,说明t 。的重要性越 低。 这之后很多研究者对t f i d f 公式作了修改,但基本思想仍不变。o k a p i 公 式是其中著名的一个。 。k a 。t 公式:w - 一2 :;:j i :j 。! ! 墨! :警o ,5 + 1 5 x 盟+ # ( r ,z ) ”。”州 其中,撑( 如,虿) 、i d i 以及”( r ;) 的含义与t f i d f 公式相同,如n ( 虿) 表示虿中 的关键词总数,d v g k ”则表示所有文档关键词数目的平均值。 2 1 6 3 概率模型 r o b e r t s o n 提出了基于检索词和文档相关关系的概率检索模型 1 2 。概率方 法基于两个主要的参数,文档的相关概率p r ( r e l ) 和不相关概率p r ( n o n r e l ) t 以及两个费用系数q ,d :。q 表示由于检索不相关文档造成的损失,口:表示错过 检索相关文档所造成的损失。因为检索不相关的文档产生的损失为 矾 1 一p r ( r e l ) ,错过相关文档所造成的损失为a 2 p r ( r e l ) ,因此应该检索的文 档应符合公式:口2 p r ( r e l ) = a 1 【1 一p r ( r e l ) 】。 检索相关函数可定义为:9 2 而p r ( r e 丽1 ) 一罢 检索结果为相关函数g 值大于0 的文档记录。g 值无法计算出来,文档的相 关特征与其中包含的检索词相关。使用贝叶斯定理,并假设口。= 日:,可得到: l o g g ( x ) = p r ( x ft e l ) p r ( x n o n r e l )+ l 。8 面p 磊r ( r e 丽1 ) 其中p r ( r e l ) 和p r ( n o n r e l ) 为相关及不相关的先验概率。与p r ( x l r e l ) 以及 p r ( x n o n r e l ) 相关的文档出现的特性,可以用相关检索词出现的概率p “t l ,e ,) 以 及p r ( x , l n o n r e l ) 来表示。对于信息过滤,由于具有学 - j 过程,p r ( 葺h ,) 与 p r ( x , i n o n r e l ) 可以通过学习获得。 2 1 6 4 潜在语义索引模型 1 3 潜在语义索引模型已被广泛地应用到信息检索领域中,用字项与文档对象之 间的内在关系形成信息的语义结构。这种语义结构反映了数据间最主要的联系模 式,忽略了个体文档对词的不同的使用风格。这是挖掘文档的潜在的语义内容, 而不仅仅是使用关键字的匹配,是对字项文档矩阵使用奇异值分解 ( s i n g u l a r v a l u ed e c o m p o s i t i o n 或简称为s v d ) 方法来实现的,把小的奇异值去 掉。 对于使用奇异值分解( s i n g u l a r - v a l u ed e c o m p o s i t i o n 或简称为s v d ) 来实现 信息过滤,给定一个字项文档矩阵x ,x 有r ( 表示文档集中关键字项的个数) 行c ( 文档集中文档的数量) 列。对x 进行奇异值分解得x = 瓦x s o d j 。其中t o 是r m 矩阵,称其标准正交列为左奇异向量,最是脚州对角阵,品中的正奇 异值是以递减的顺序排列的,d o 是m c 矩阵,d 0 的标准正交列为右奇异向量, m 是矩阵s 的秩。 通过对矩阵t o ,& 和1 ) o 的处理使x 矩阵被重构。l s i 技术的关键在于只取 矩阵s o 的k 个奇异值,其他的值置零。值k 是一个设置参数,一般情况下经常 设置在1 0 0 到2 0 0 之间。原始矩阵x 可近似表示为鳍= t s d 7 ,其中t 是具有标 准j 下交列的,k 矩阵,s 是一个t k 的对角阵,d 也是具有标准了f 交列的c k 矩 阵。 s v d 分解具有重要的意义:它可将项和文本影射到k 维子空间,这样较之 传统的单一模式因子分析,它的基础不再是同一类型的两个事物的相似矩阵,而 是任意的矩阵,其结果是将项和文本表示为k 个因子的形式,而且保留了原始的 大部分信息,s v d 分解并不是为了描述这些潜在的语义结构,而是利用潜在的 语义结构来表示项和文本,克服单纯项表示时产生的同义、多义及斜交现象f 1 4 。 由于潜在语义索引是通过潜在语义而不是词形去匹配文本,所以利用它可以 很好地解决同义问题,不但能够发现包含相同词汇的文本,而且还能够利用潜在 语义发现那些包含同义或近义词汇的文本,减少漏掉相关文本。 利用s v d 分解不仅能够分析传统的项与项或者文本与文本之间的相似关 系,而且更关键的是能够分析项和文本的关系,在新的语义空间分析计算项与文 本之间的相似性系数,比直接利用原始的特征向量进行点积运算,具有更好的效 果,因为它是基于语义层,而前者是基于词汇层的。 2 1 7 信息过滤算法 根据选择信息方法的不同可将信息过滤分为三类:按内容过滤、协同过渡、 基于价格的过滤。按内容过滤法是按照信息内容的特性做出选择。协同过滤法根 据其它用户的推荐或注释来挑选信息。价格过滤法通过计算选择某项信息的性价 比来确定是否选择该信息。 按内容过滤可以利用基于关键词的方法,将进入信息流和用户模板 ( u s e r - p r o f i l e ) 文件进行匹配计算【1 5 。按内容过滤的方法比较适合于分析文本 信息,而对声音、图像、视频等形式的媒体还缺乏有效的自动分析方法。 协同过滤法 1 6 1 1 1 7 忡用户通过相互协作来选择信息,它依据其它用户对信 息做出的评价来挑选信息。协作方常常是用户所信任的朋友、同事等,依据他们 的判断来使信息被推荐给用户自己。因为在一个用户群中,总有一部分用户是积 极活跃的,他们愿意及时、主动地提供对文档的反馈信息,这些反馈信息可以被 不太积极的用户利用来过滤信息,这是协作过滤的设计基础。协作过滤法中,信 息的选择既可以按个人标准、也可以按整合的标准( 即大多数组员认可的具有共 性的标准) 。 基于价格的过滤法按经济规则来选择信息:选择一条信息是因为选择它所用 的开销小于不选择它所损失的代价。如文献 1 8 中所述:设c s 表示选择某一条 信息的开销,c r 表示拒绝该条信息而损失的代价,如果c s y t x , w m ( x :y ) 和a t ( x :y ) 有一个共同点:值越大,x 与y 之间的结合越紧密:不同 点是m ( x :y ) 只关系到2 个汉字,而a t ( x :y ) 的值是与局部上下文相关的,关 系到4 个汉字,在一定程度上,两个值可以互补。 该方法的分词原理是:对于一个汉字字符串,计算汉字之间的互信息和t 一 测试差信息,选择互信息和t 测试差信息大的组成词。该方法的局限性是只能处 理长度为2 的词,并且对于一些共现频率高的但不是词的字组,如“之一”、“有 的”等,常被提取出来,而且常用词的计算开销大,但可以识别一些新词,消除 歧义。在实际的分词系统中,还是需要常用词典的。 3 3 2 2 基于本体论的信息过滤方法的分词、计算文档向量处理 首先直接采用中科院计算所软件室开发的汉语词法分析系统i c t c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 通信行业安全生产
- 讲师培训班课程
- 商丘蓝球场施工方案
- 吉林工业职业技术学院《中国现代文学名家解读》2023-2024学年第二学期期末试卷
- 浙江科技学院《大学生职业素养与就业指导》2023-2024学年第二学期期末试卷
- 郑州工商学院《大型数据库应用实训》2023-2024学年第二学期期末试卷
- 山西中医药大学《外国文学上》2023-2024学年第二学期期末试卷
- 新疆天山职业技术大学《工程质量事故分析》2023-2024学年第一学期期末试卷
- 2025至2031年中国木篮行业投资前景及策略咨询研究报告
- 武汉设计工程学院《误差理论与数据处理》2023-2024学年第一学期期末试卷
- 河北单招时政试题及答案
- 2024-2025班主任的培训心得体会(29篇)
- 实验14 探究液体内部压强的特点-中考物理必考实验专项复习
- 合理应用抗生素的培训
- 护理不良事件案例分析及警示
- 使用错误评估报告(可用性工程)模版
- 高中英语新课程标准解读课件
- 干部履历表(中共中央组织部2015年制)
- 中国特色社会主义理论体系的形成发展PPT2023版毛泽东思想和中国特色社会主义理论体系概论课件
- 贵溪鲍家矿业有限公司采矿权出让评估报告书
- 低压电气基础知识培训课件
评论
0/150
提交评论