




已阅读5页,还剩54页未读, 继续免费阅读
(计算机科学与技术专业论文)基于jaccard项目类别相似性的个性化推荐算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
p e r s o n a l i z e dr e c o m m e n d a t i o n a l g o r i t h mr e s e a r c hb a s e d o nj a c c a r di t e mc a t e g o r ys i m i l a r i t y s p e c i a l t y : c o m p u t e rs c i e n c e a n dt e c h n o l o g y m a s t e r d e g r e ec a n d i d a t e : s u p e r v i s o r : l ix i a o h u i p r o f x ud e z h i c o l l e g eo fi n f o r m a t i o ns c i e n c e e n g i n e e r i n g c e n t r a ls o u t hu n i v e r s i t y c h a n g s h ah u n a np r c 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:銮0 ,篷 日期:z q ! ! 年月翌日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 作者签名:越导师签名越日期:旦年月丑日 摘要 随着互联网重要性的增加,大量的信息涌现在人们眼前。推荐系 统被设计成根据用户的偏好来帮助人们发现最相关的项目。使用最广 泛的个性化推荐技术是协同过滤,它基于其他用户的经验向用户推荐 商品。但是,协同过滤技术存在严重的问题,如稀疏性问题和扩展性 问题。本文就如何克服这些问题和提高推荐质量进行了研究。 首先,简要介绍了课题的研究背景和几种个性化推荐技术,着重 介绍了协同过滤技术,分析了协同过滤技术所面临的问题。 其次,针对在用户评分数据极端稀疏的情况下,传统的相似性度 量方法存在弊端,提出了一种基于云模型计算项目评分相似性的方 法,该方法在知识层面比较相似性,克服了以往的基于向量比较相似 性的方法在严格匹配对象属性方面的缺陷。该方法有效地解决了传统 协同过滤算法所面临的问题,改善了推荐效果。 最后,针对基于项目的协同过滤技术中计算项目相似性考虑因素 的单一性,本文提出一种基于j a c c a r d 相似性计算项目类别相似性的 方法。先对未考虑项目类别因素的个性化推荐算法进行分析,指出其 中的弊端,并介绍已考虑项目类别因素的方法,分析了其中计算项目 类别相似性方法的不足,再提出基于j a c c a r d 相似性的项目类别相似 性计算方法。最后综合项目类别相似性和项目评分相似性得出综合项 目相似性,选择相似性最大的前k 项作为目标项目的最近邻居,预 测目标用户的未评分项目,在此基础上实现针对目标用户的t o p - n 推 荐。实验结果表明,本文提出的方法有较低的m a e ,提高了推荐系 统的质量。 关键词协同过滤,j a c c a r d 相似度,类别相似性,综合相似性,云模 型 a bs t r a c t w i t ht h ee v e rg r o w i n gi m p o r t a n c eo fi n t e m e t ,p e o p l ea r eb e c o m i n g o v e r w h e l m e db yi n f o r m a t i o n r e c o m m e n d e rs y s t e mi sd e s i g n e dt oh e l p p e o p l et of i n dt h em o s tr e l e v a n ti t e m sb a s e do nt h e i rp r e f e r e n c e t h e m o s tw i d e l yu s e dt e c h n i q u ei sc o l l a b o r a t i v ef i l t e r i n g ,w h i c hr e c o m m e n d s p r o d u c t st ou s e r sb a s e do nt h ee x p e r i e n c eo fo t h e r s b u tc fs u f f e r sf r o m p r o f o u n dp r o b l e m ss u c ha st h es p a r s i t yp r o b l e ma n ds c a l a b i l i t yi s s u e s t h i st h e s i ss t u d i e sh o wc a no v e r c o m et h ep r o b l e m s ,w h i l ea c h i e v i n g b e t t e rp r e d i c t i o na c c u r a c y f i r s t l y , t h er e s e a r c hb a c k g r o u n do ft h et h e s i sa n ds o m ep e r s o n a l i z e d r e c o m m e n d a t i o nt e c h n i q u e sa r e b r i e f l yi n t r o d u c e d ,a n dc o l l a b o r a t i v e f i l t e r i n g i s e m p h a t i c a l l yi n t r o d u c e d ,t h ep r o b l e m sw h i c hf a c e sa r e a n a l y z e d s e c o n d l y , a i m e da tt h es p a r s i t yo f u s e rr a t i n gd a t aa n dt h ed r a w b a c k s o ft r a d i t i o n a ls i m i l a r i t ym e a s u r em e t h o d s am e t h o do fc o m p u t i n gi t e m r a t i n gs i m i l a r i t yb a s e do nc l o u dm o d e l i sp r o p o s e d 1 1 1 em e t h o dc o m p a r e s t h es i m i l a r i t yo nk n o w l e d g el e v e l ,w h i c hc a no v e r c o m et h ed r a w b a c ko f a t t r i b u t e s s t r i c t l ym a t c h i n g o ft r a d i t i o n a lv e c t o r - b a s e d s i m i l a r i t y c o m p a r i s o nm e t h o d t h em e t h o ds o l v e st h ep r o b l e mt h et r a d i t i o n a l c o l l a b o r a t i v ef i l t e r i n ga l g o r i t h mf a c i n g ,a n di m p r o v e st h ee f f e c t i v e n e s so f t h er e c o m m e n d a t i o n f i n a l l y , a i m i n ga tt h ep r o b l e mo fc o n s i d e r i n gf a c t o rs i n g l e n e s sw h e n c o m p u t i n g i t e m s i m i l a r i t y o fi t e m b a s e dc o l l a b o r a t i v e f i l t e r i n g ,a c o m p u t i n gi t e mc a t e g o r ys i m i l a r i t ym e t h o db a s e do nj a c c a r ds i m i l a r i t yi s p r o p o s e d i tf i r s ta n a l y s e st h ep e r s o n a l i z e dr e c o m m e n d a t i o na l g o r i t h m s w h i c hh a v en o tc o n s i d e r e dt h e c a t e g o r yf a c t o r a n dp o i n t so u t t h e s h o r t c o m i n g s a n dt h e ni ti n t r o d u c e ss o m em e t h o d sh a v i n gc o n s i d e r e d t h ef a c t o r , a n da n a l y s e st h ed e f i c i e n c yo ft h em e t h o d sc o m p u t i n gi t e m c a t e g o r ys i m i l a r i t y t h em e t h o do fc o m p u t i n gi t e mc a t e g o r ys i m i l a r i t y b a s e do nj a c c a r ds i m i l a r i t yi sp r o p o s e da tl a s t c o m b i n i n gi t e mc a t e g o r y s i m i l a r i t ya n dr a t i n gs i m i l a r i t yc a ng e tt h ec o m b i n e ds i m i l a r i t y i tc h o o s e s i i i i i 目录 摘要i a b s t r a c t i i 第一章绪论1 1 1 课题研究背景1 1 2 国内外相关研究现状2 1 2 1 个性化推荐技术2 1 2 2 个性化推荐系统3 1 3 主要研究内容5 1 4 论文组织结构6 第二章个性化推荐系统及其核心技术8 2 1 个性化推荐系统8 2 2 个性化推荐技术9 2 2 1 基于内容推荐9 2 2 2 基于协同过滤推荐1o 2 2 3 基于关联规则推荐1 1 2 2 4 基于效用推荐1 2 2 2 5 基于知识推荐1 2 2 2 6 组合推荐。1 2 2 3 协同过滤技术的详细介绍1 3 2 3 1 协同过滤算法思想1 3 2 3 2 协同过滤技术的分类1 5 2 3 3 协同过滤技术的优点1 6 2 3 4 协同过滤技术的缺点及解决方法1 6 2 4 小结18 第三章基于云模型的项目评分预测推荐算法l9 3 1 传统的项目相似性度量方法1 9 3 2 云模型相关介绍2 1 3 3 基于云模型的项目评分预测推荐算法2 2 3 3 1 相关定义2 2 3 3 2 基于云模型预测未评分项目评分2 3 3 3 3 产生推荐集2 4 实验2 6 3 4 1 测试数据集2 6 3 4 2 评价标准2 6 3 4 3 实验过程2 8 3 4 4 实验结果及分析2 8 小结2 9 基于综合项目相似性的协同过滤推荐算法3 0 未考虑项目类别相似性的个性化推荐算法3 0 已有的计算项目类别相似性方法3 0 基于j a c c a r d 相似性的项目类别相似性度量3 l 基于综合项目相似性的个性化推荐算法3 2 4 4 1 综合项目相似性的相关定义3 2 4 4 2 基于综合项目相似性预测未评分项目评分3 3 4 4 3 产生推荐集3 4 实验3 5 4 5 1 实验过程3 5 4 5 2 实验结果及分析。3 7 月、结3 8 结论与展望3 9 研究工作及成果总结3 9 进一步研究方向3 9 献4 1 z 1 6 位期间主要研究成果4 7 硕士学位论文第一章绪论 第一章绪论弟一早珀下匕 个性化服务是个性化推荐系统根据用户访问网站或购买商品的历史记录,动 态调节网站的内容,自动向用户推荐有可能感兴趣的信息的过程。个性化服务系 统的目的是利用用户兴趣模型向用户提供个性化服务,向用户推荐最符合用户需 求的信息。而个性化推荐技术则是个性化推荐系统中最重要且关键的技术,决定 了推荐系统性能的好坏。 1 1 课题研究背景 随着i n t e m e t 应用的快速发展和广泛应用,大量的信息涌现在人们眼前。信 息技术的发展带来了丰富的信息资源,也成为人们了解和获取信息的重要渠道。 然而,就在人们享受着信息技术带来方便的同时,“信息过载、“资源迷向1 1 - 4 问题也日益严重,人们的经验和知识常常不能处理这些大量的无用信息,获得有 用信息变得越来越困难。 个性化服纠5 】正是针对此种情况提出来的。个性化服务利用采集和分析用户 信息来模拟用户兴趣及行为,进而提供推荐。这种服务能有效提高站点的q o s 和访问速度,进而增加网站访问量【锚】。个性化服务本质上是一种以用户需求为 核心的服务,如图1 1 所示。个性化服务系统将用户的信息转化成用户模型,用 户模型通过不断的学习逐步完善,系统通过每个用户的模型向这个用户推荐不同 的信息。 图1 - 1 个性化服务的实质 推荐系统在电子商务中作为一个新的市场策略扮演着一个重要的角色。电子 商务推荐系统中最核心的部分是个性化推荐技术,此技术很大程度上决定了推荐 系统性能的好坏【9 】。目前虽然已经有很多推荐技术,但是协同过滤技术【l o l 还是被 一章绪论 影、歌曲 滤向顾客 流行。个 技术和个 于内容推 和组合推 采用机器 道用户对 协同过滤技术普遍被认为是最早和最为成功的推荐技术。协同过滤常采用最 近邻技术,利用用户的历史偏好信息来计算用户之间的相似性得到最近邻居集 合,然后利用目标用户的最近邻居对商品评价的加权评价值来预测目标用户对特 定商品的评价,系统再根据评价值来对目标用户进行推荐【1 2 。13 1 。 基于关联规则的推荐技术是建立在关联规则的基础之上,其中规则头是已经 被购买的项目,而被推荐的对象则作为规则体。对关联规则进行挖掘可以发现不 同商品在销售过程中的关联或相关联系,这对选择购物、决策分析和商务管理方 面是有用的。此技术最为关键的步骤是关联规则的发现,这也是非常耗时的,是 算法的瓶颈,不过可以离线完成。另外,商品名称的同义性问题也是基于关联规 则技术的一个难点。 基于效用的推荐也使用项目的特征作为背景资料。与基于内容的方法用评分 作为偏好不同的是效用模型需要用户通过项目的属性形成效用函数。这些效用函 数被应用到所有项目上,评价值最高的项目将会被选择推荐。此方法关键问题是 如何为所有的用户定义各自的效用函数,所以系统所采用的效用函数决定了用户 资料模型的建立。这种方法的好处是可以将非产品属性考虑到效用计算中。虽然 我们认为所有的推荐系统都是基于一些潜在的效用假设形式,但是不同类别推荐 硕士学位论文第一章绪论 系统的区别不可能总是清晰的。 基于知识的推荐是一种基于用户需求的推荐项目技术。在此方法中,项目的 特征和这些项目怎样满足用户需求的知识被用来作为背景资料。给定一个用户需 求和兴趣的描述,系统可以推断一个项目与用户需求之间的匹配,提供可以推理 的知识模型,特别是对复杂产品的推荐,以便可以指导用户的购买过程。基于知 识的方法因每个系统所用的功能知识不同而有明显区别。 组合推荐技术结合两种或两种以上的推荐技术以获得更好的推荐效果,这样 可以克服上述那些推荐方法的局限性或者结合不同方法的优点。研究和应用最多 的组合是基于内容的推荐和协同过滤技术的组合。最常用的方法是,以协同过滤 技术为主,再结合一些基于内容的技术,试图避免协同过滤技术中一些常见的问 题。 个性化推荐技术已运用到很多领域,如网络学习,电视节目制作”16 】等。文 献 1 4 】把个性化推荐作为新的解决方案,为学习者在组学习中提供合适的学习对 象去学习。为了完善在线学习推荐系统“教育规定 的实施,提出了一种新的更 适合于实现个性化推荐的推荐方法,是基于学习历史和学习活动和过程的,叫做 l r m d c r ( 基于学习者角色的多维协同推荐) 。文献【1 6 】用一种结合推荐和电子地 图的技术,建立了一个基于地图的会话移动推荐系统,能有效且直接地帮助用户 寻找需要的产品和服务。 1 2 2 个性化推荐系统 目前,各种各样的个性化推荐系统被用在大型电子商务系统,如a m a z o n 、 c d n o w 、e b a y 及当当网等【l 刀。根据所采用的推荐技术个性化服务系统可以分 为两种:基于规则的和基于信息过滤的。信息过滤系统还可以分为基于内容过滤 的和协同过滤系统【1 5 , 1 9 1 。 基于规则的系统有i l o g ,b r o a d v i s i o n ,i b m 的w e b s p h e r e t 2 0 】等,根据已 经生成的规则向用户推荐信息,允许系统管理员根据用户的静态特征和动态属性 来制定规则,一个规则本质上是一个i f - t h e n 语句。基于规则的系统其优点是简 单、直接,缺点是难以保证规则的质量,不能动态更新,而且随着规则的增加, 系统将变得很难管理。基于规则的系统个性化程度低,这方面的研究一般会结合 其它技术【2 。文献 2 1 】提出了在电子商务中一个使用关联规则挖掘和分类的个性 化推荐系统。从文本文件中抽取顾客需求,转换成一系列重要的词组,再转换交 易记录,用a p f i o f i 算法从数据库中挖掘一系列规则,应用c b a c b 算法从整套 3 混合推荐系统如:w e b s i f i ,f a b ,a n a t a g o n o m y ,d y n a m i cp r o f i l e r 和清华大 学的o p e nb o o k m a r k 等,将基于内容和协同过滤这两种技术相结合,可以避免 这两种技术各自存在的一些问题。采用用户浏览过的项目的评价来预测用户对尚 未评价的项目的评价,来解决协同过滤的稀疏性问题。这样做增大了项目评价的 密度,从而提高了之后进行的协同过滤技术的性能。一些研究者对混合推荐技术 4 硕士学位论文 第一章绪论 的进行了改进瞄。文献 2 9 1 提出了个基于聚簇p 2 p 网的文献推荐系统,即混合 过滤系统,包含了内容过滤和协同过滤,利用文献内容和用户意见决定文献和用 户之间的关系,查询的准确率比其他文件共享系统高。 还有一些新的方法运用到推荐系统中 3 0 - 3 4 1 ,其中有用本体技术来实现的。文 献 3 0 】提出了用本体和激活扩散模型来推荐研究论文,主要用本体构建用户概貌 ( u s e r p r o f i l e ) ,利用用户概貌本体作为推理用户兴趣的基础,利用激活扩散模型 来查找网络中其他有影响的用户。文献 3 2 1 基于本体论的表示方法,用一个本体 来表示用户感兴趣的领域,用一个本体概念向量来描述用户的兴趣特征,而采用 层次概念树来表示这些本体,概念树中的每个节点分别代表用户的一个兴趣类。 用本体来表示用户模型能实现知识的重用和共享,在此文献中有可以共享所有的 用户兴趣本体以及与其他外部本体。 1 3 主要研究内容 随着电子商务系统规模的进一步扩大,网站的用户数目和项目数目都在急剧 增加,导致协同过滤技术的稀疏性问题越来越严峻。另外传统的计算项目相似性 方法也存在弊端,因此降低了推荐系统的推荐质量。针对这两个问题,本文主要 做了以下几个方面的工作。 ( 1 ) 分析个性化推荐技术的优缺点 现有的个性化推荐算法主要采用传统的项目相似度计算方法,在用户评分数 据极端稀疏的情况下,传统的相似性度量法存在弊端。且计算项目相似度时,考 虑的因素比简单一,只考虑了项目的评分相似性,使得到的项目相似性不够准确, 进而会影响寻找项目的邻居集合。因此,本文提出基于云模型计算项目评分相似 性和基于j a c c a r d 相似性计算项目类别相似性。不仅有效地解决了用户评分数据 的稀疏性问题,还提高了推荐系统的推荐质量。 ( 2 ) 基于云模型计算项目评分相似性 针对在用户评分数据极端稀疏的情况下,传统的相似性度量法存在弊端,本 文提出了基于云模型的项目评分相似性计算方法,该方法利用云模型在定性知识 表示以及定性、定量知识转换时的作用,在知识层面比较相似性,克服了传统基 于向量的相似性方法严格匹配对象的不足。 ( 3 ) 基于j a c c a r d 相似性计算项目类别相似性 处于同一类别的项目显然比位于不同类别的项目在语义上具有更高的相似 5 实验结果。 第四章基于综合相似性的协同过滤推荐算法 首先分析了未考虑项目类别相似性的推荐算法的不足,介绍了已考虑项目类 别相似性推荐算法并分析了其缺点,接着定义了j a c c a r d 相似性来计算项目类别 相似性。然后详细介绍了基于综合相似性的协同过滤推荐算法,分别基于云模型 6 硕士学位论文第一章绪论 计算目标项目与项目空间中其他项的评分相似性和基于j a c c a r d 相似性计算类别 相似性,将两者进行加权组合,得到项目综合相似性,预测目标用户的未评分项 目,在此基础上实现针对目标用户的t o p - n 推荐。最后通过实验验证了算法的有 效性,并对实验的结果进行了分析。 第五章结论与展望 对本文的研究工作及成果进行了总结,并展望了本课题未来的研究方向。 用户推荐感兴趣的商品,即使一开始用户浏览网页时没有购买欲望,也有可能被 吸引去购买商品; ( 2 ) 提高电子商务网站的交叉销售能力,在用户购买商品过程中系统还可 以向用户推荐其他可能感兴趣的商品,系统将这些商品以列表的形式呈现给用户 供其选择,这些商品往往是顾客开始没注意到却有可能需要的,这就大大增加了 系统的销售量; ( 3 ) 提高客户对电子商务网站的忠诚度,稳定网站的客户量。现代消费者 被大量的选择所困扰,电子零售商和产品供应商提供了一个选择满足众多特殊需 求和品位的商品的机会,只需要点击一下鼠标就可以在各种电子商务系统随便浏 览。为客户选择最合适的产品是不容易的,但这是提高客户满意度和忠诚度的关 键。个性化推荐系统分析用户的浏览和购买历史,根据每个用户的偏好向用户提 供可能感兴趣的商品。假如某个推荐系统具有很好的推荐效果,用户就会很相信 并且会经常使用这个推荐系统。所以,一个好的个性化推荐系统在为用户提供个 8 硕士学位论文 第二章个性化推荐系统及其核心技术 性化的推荐服务的同时,还能使用户与网站建立牢固的买卖关系,从而可以吸引 并留住客户,防止客户流失。 个性化推荐系统具有良好的发展和应用前景。目前,各种形式的推荐系统在 几乎所有的大型电子商务系统都得到了应用,如l l d a z o n 、e b a y 等【3 7 1 。各种提供 个性化服务的w e b 站点也需要使用推荐系统,方便用户的浏览,服务器可以根 据用户的浏览历史,向用户推荐与其相关的页面。在目前竞争日趋激烈的电子商 务系统中,个性化推荐系统可以吸引且留住客户,提高电子商务系统的个性化服 务能力,且最终会带来巨大的经济效益。 目前,电影、音乐、网页、文章、新闻等很多行业都已经应用了推荐系统。 表2 1 为已经应用到商业中的推荐系统,主要集中在电影、音乐以及电子商务等 领域。为了在商业中取得成功,推荐系统必须能为用户提供有效地推荐,吸引众 多用户去购买商品,最终可以为推荐系统带来一定的经济效益。 表2 - 1 主要商用推荐系统表 d o m a i nr e c o m m e n d e rs y s t e m m o v i e f i n d e r c o m ,m o v i e l e n s ,r e e l c o r n c d n o w ,c o c o a ,r i n g o f a b ,f o x t r o t ,i f w 曲,m e m o 取,m e t i o r e w ,p r o f b u i l d e r q u i c , q u i c k s t e p ,r 2 p ,s i t e s e e r ,s u r f l e n e b a y ,s k i - e u r o p e c o m ,a m a z o n c o m g r o u p l e n s ,p h o a k s ,p t a n g o 2 2 个性化推荐技术 个性化推荐技术是电子商务推荐系统中最重要且关键的技术,决定了推荐系 统性能的好坏。个性化推荐技术根据实现的途径不同,可分为以下几种。 2 2 1 基于内容推荐 基于内容的推荐技术依据项目的内容等相关信息向用户做出推荐,采用机器 学习的方法从关于内容的特征描述中获取用户的偏好信息,而不需要知道用户对 项目的评价,它是信息过滤技术的延伸。在这种推荐系统中,通过相关的特征的 属性来定义项目或对象,根据被评价对象的特征来学习用户的兴趣,进而衡量用 户信息与要预测项目的相似程度。机器学习的方法决定了用户的资料模型,常用 的方法有决策树、神经网络和基于向量等。 9 1 0 硕士学位论文 第二章个性化推荐系统及其核心技术 用尸a用户b 图2 - 2 协同过滤技术 协同过滤推荐从用户的角度来进行推荐,而且是自动的,即用户得到的推荐 是从用户的购买模式或浏览行为隐式获得的,而不需要用户自己寻找适合自己兴 趣的信息。 同上小节方法相比,本节所述方法有很多优点。一方面,对那些不能用机器 进行自动内容识别的信息也能过滤。另一方面,不同的用户之间可以分享各自的 经验,从而更加有效地提高了推荐的查全率和查准率。另外,使用该方法不仅能 够对内容本身进行分析,也可以更加准确地对复杂的信息进行分析,通过综合多 种用户的反馈来发现隐含的用户兴趣,从而产生更加准确、全面的推荐集。由于 有效的利用了其他相似用户的信息,用户本身不用重复学习,因此提高了个性化 学习的效率。协同过滤比基于内容的过滤优越的地方是可以向用户提供新的信 息,这些信息是用户自己还没有发现的。 2 2 3 基于关联规则推荐 基于关联规则的推荐技术是建立在关联规则的基础之上,其中规则头是已经 被购买的项目,而被推荐的对象则作为规则体。关联规则的挖掘主要通过分析用 户的购买习惯,来发现不同种类的商品在商品交易过程中的关联。目前,该方法 已经在商业中得到了广泛的应用。它的含义就是在用户购买了某种商品的条件下 购买另外一种商品的概率。比如购买了牛奶的用户购买面包的用户的概率就会很 大。 这种推荐算法最核心的技术就是关联规则的挖掘,同时也是最耗时的地方, 往往成为算法的瓶颈。所以,一般采用离线的方式进行。另外,由于不同的商品 可能同名,这也是关联规则挖掘时的一个难点。 基于关联规则的系统可以分为三个部分,用户接1 3 层、描述层和关键词层, 规则进行基于规则和案例的推理。基于知识的推荐系统通常用基于案例的推理系 统( c b r ) 去发现与用户偏好相似的项目。c b r 技术的成功依赖于使用相似矩 阵对一个给定问题确定一个正确的案例。基于知识的方法因推荐系统所用的功能 知识不同而不同。 2 2 6 组合推荐 由以上几个小节可以看出每种推荐方法都有各自的缺点,所以在实际推荐系 统中经常使用组合推荐的方法。组合推荐是结合两种或两种以上的推荐技术以获 得更好的推荐效果,这样可以克服上述那些推荐方法的局限性或者结合不同方法 硕士学位论文 第二章个性化推荐系统及其核心技术 的优点。基于内容的推荐和协同过滤推荐技术的组合是被研究和使用得最多的。 理论上虽然有不少组合推荐的方法,但由于所碰到的问题的不同其推荐的效果也 会有很大差异,有的甚至不起任何作用。总的来说,组合推荐就是要能通过组合 的方式来最大程度的避免或弥补单个的推荐技术在应用中的不足之处。 组合推荐有以下几种组合技术: 加权,将几种推荐技术的推荐结果加权; 变换,根据推荐系统所面对的实际情况来变换采用不同的推荐技术; 混合,通常情况下,推荐系统中使用的推荐策略并不是单一的,而是结合多 种策略得到综合的推荐集返回给用户; 特征组合,不同的数据源具有不同的特征,在选择某种算法时,可以综合考 虑多种数据源的特征,将其组合在一起; 层叠,在对数据进行分析的过程中,可以先使用一种方法得出的相应的结果, 再使用第二种策略直接对结果进行分析而不是再次分析源数据,过滤掉不符合条 件的数据,使推荐结果更加地精确; 特征扩充,在使用某种推荐技术对数据集进行处理时,可能会发现数据所隐 含的某些特征信息,从而充分利用这些特征信息,再使用其他的技术进一步分析 来产生推荐集; 元级别,使用多种方法对数据集进行分析,完善相应的数据模型,再将此模 型作为输入,再使用其他算法进行处理,从而得到推荐结果。 2 3 协同过滤技术的详细介绍 虽然近来开发了各种各样的推荐技术,但是协同过滤技术已经被认为是最成 功的,并且已经被用在很多领域,如推荐网页、电影、音乐和产品。本节主要从 协同过滤技术的算法思想、分类、优点和它的缺点及解决方法四个方面详细介绍。 2 3 1 协同过滤算法思想 协同过滤的思想是:要帮助用户找到其可能感兴趣的东西,首先要分析他的 兴趣爱好,找到与他相似的用户,然后将这些用户喜欢的东西推荐给此用户。比 如,在现实生活中,朋友通常会向我们推荐某些商品,而那些商品恰好也符合我 们的兴趣爱好,我们就会选择购买。协同过滤技术正是将这种思想运用到推荐系 1 3 保密性,用户的偏好是重要且保密的,应该由用户自己拥有,而不应该被其 他人所知道,其他用户也不能访问别人的偏好 4 7 1 。 1 4 硕士学位论文第二章个性化推荐系统及其核心技术 2 3 2 协同过滤技术的分类 协同过滤技术按照过滤方法的不同可以分为两种:基于用户的和基于项目的 协同过滤。 基于用户的协同过滤根据与目标用户评价或购买历史相同或相近的用户的 兴趣比较目标用户与其他用户,向目标用户推荐信息。它基于这样一个假设:若 某些用户对一些项目的评价情况相似,则这些用户对其他项目的评价也可能相 似。确定目标用户的最近邻居方法是:先计算用户之间的相似性,再选取与其相 似性最高的若干项作为它的最近邻居。目标用户的最近邻居准确与否,对整个推 荐系统的推荐质量有很大的关系,因此计算用户之间的相似性就成为提高推荐系 统质量的关键。目前计算用户之间的相似性方法有3 种:余弦相似性,相关相似 性和修正的余弦相似性。这几种方法只注意用户之间的评分相似性,而没有考虑 不同用户访问同一个资源的时间是不同的,使得利用传统相似性度量方法得到的 最近邻居不准确。文献【4 0 】利用逻辑斯谛函数给每个项目的评分一个按时间逐步 递减的权重,改进了相关相似性的度量方法。 基于项目的协同过滤通过用户项目评分矩阵计算项目之间的相似性,选择 相似性最高的前k 项作为推荐项目。它的基本思想为:一个用户将有可能选择 与他已购买项目相似的项目。这种方法不用求用户的最近邻居,所以推荐速度很 快。基于项目的协同过滤技术是依据产品、网页等项目之间的相似性向用户进行 推荐的。一般来说,在基于用户的协同过滤推荐系统中,要在线实时计算用户之 间的相似性,寻找与当前用户相似的用户群,可是随着用户和项目数目的增加, 计算量会急剧增加,推荐系统的推荐效率和质量也会随之降低。而对于基于项目 的协同过滤推荐系统,项目相对与用户来说比较稳定,可以离线计算项目之间的 相似性,在线的推荐部分只需在离线计算结果的基础上进行少量的运算就可以 了。因此,基于项目的协同过滤技术比基于用户的协同过滤技术具有较小的在线 计算量,预测的准确性也高些【4 引。 协同过滤技术也称为面向用户的技术。协同过滤技术通过分析历史数据,生 成与当前用户行为兴趣最相近的用户集,将他们最感兴趣的项作为当前用户的推 荐结果,即t o p n 推荐。基于协同过滤技术的推荐过程可分为三个不同的阶段: 数据表述;发现最近邻居;产生推荐数据集。其中,邻居的形成决定了推荐算法 的主要性能,所以算法之间的性能差别基本上是由于形成邻居阶段所使用的技术 造成的。 此阶段有很多技术可以使用,总的可以分为两大类: 1 5 硕士学位论文第二章个性化推荐系统及其核心技术 ( 1 ) 基于内存的方法,此算法在做推荐时要扫描整个评分数据库,及时的 更新邻居集合,要使用整个用户项目矩阵产生预测,也称为基于用户的协同过 滤。该算法的优点是实现比较简单,且推荐结果随着数据的变化而变化,推荐的 准确度比较高: ( 2 ) 基于模型的方法,不直接工作在用户项目矩阵上,而是通过一些学习 方法如:贝叶斯网络、遗传算法、聚类和基于规则的方法在用户的评分上形成一 个用户评价模型,再根据这个模型进行推荐。每隔一定的周期模型才学习一次, 在推荐的时候通过模型就可以了,不需要扫描评分数据库。此算法的优点是提高 预测时的性能。缺点是比较费时,预测精度不高,所以不适合数据更新频繁的推 荐系统。 2 3 3 协同过滤技术的优点 协同过滤方法的主要优点有: ( 1 ) 可以为用户发现新的兴趣,而且不需要领域知识,这是协同过滤技术 相对于基于内容技术的一大优势,基于内容的技术一般都是推荐用户已经熟悉 的,而利用协同过滤却可以向用户推荐隐藏的但自己还没有发现的项目; ( 2 ) 推荐系统的性能随着时间的推移也随之提高,能够有效的使用与之相 似的用户的反馈信息,加快个性化学习的速度; ( 3 ) 推荐的个性化、自动化程度高,共享其他人的经验,避免了内容分析 的不完全和不准确,且可以过滤一些复杂的或者难以表达的概念; ( 4 ) 能处理复杂的非结构化对象,可以过滤一些机器不能自动分析内容的 信息,如艺术品和音乐等。 2 3 4 协同过滤技术的缺点及解决方法 虽然协同过滤被证明是最成功的推荐方法,但此方法还是有一些缺点: ( 1 ) 稀疏性问题 稀疏性( s p a r s i t y ) ,是指推荐系统中每个项目的评价信息很少,评价过或者已 被购买的商品占商品总数的比例非常小,使得用户项目矩阵非常稀疏,找到相 似的用户难度大,进而降低了推荐系统的推荐质量 4 9 。5 0 】。实际应用中,用户只对 一小部分可用的项目评分,可能只有1 到2 。稀疏的用户评分矩阵,使用户 间的相似性计算缺乏数据依据,限制了最近邻居的形成,从而影响系统的推荐效 1 6 硕士学位论文 第二章个性化推荐系统及其核心技术 果。 传统的相似性度量方法是基于用户对商品的评分,忽略了不同商品在商品种 类上的关联性。目前解决稀疏性问题的方法有以下几种:一是基于内容的推荐技 术将项目按它的特征属性分类,然后根据已评分的项目评分对相同类别的未评分 项目预测评分;二是采用降维的方法,来降低用户项目矩阵的维数,最常使用 的技术是奇异值分解,得到低维矩阵。 文献 5 1 】结合似然关系模型和用户等级,使之能够综合利用用户信息、项目 信息、用户对项目的评分数据,对不同用户给出不同的推荐策略,解决了稀疏性 问题。文献【5 2 】提出了项目类别相似性的计算方法,并将项目类别相似性与传统 的项目类别相似性进行加权组合,得到项目综合相似性,从而提高了邻居项目搜 索的准确度,也缓解了用户评分数据的稀疏性问题。 ( 2 ) 扩展性问题 扩展性( s c a l a b i l i t y ) 是指计算用户或者项目之间的相似性通常需要很长的 计算时间,最近邻居计算随着用户数目和产品数目的增加而增加。在电子商务中, 推荐系统有数以百万的用户,最近邻居的计算不能很好地完成。基于项目的协同 过滤算法,可以很好地解决这个问题,由前面的介绍可以知道它大部分的计算量 可以离线完成。 ( 3 ) 多样性问题 多样性( d i v e r s i t y ) 是指用户的兴趣是多样且多变的。目前大多数推荐系统 虽然都有很好的精确性,但缺乏推荐的多样性。造成这个问题主要是因为传统协 同过滤只注重用户对项目的评价,而忽略了项目种类的区别。由于协同过滤寻找 最近邻居是对所有项目评价与目标用户相似的用户,因此最近邻居的偏好肯定与 目标用户的相似,则利用邻居产生的推荐项目种类肯定是与目标用户已经选择的 项目类别相似,则推荐结果种类比较单一。项目和用户的兴趣如何表示是一个重 要的问题,由于用户兴趣是动态变化的,因此如何表达和更新用户兴趣成为一个 很难解决的问题。文献【5 3 】用本体的类来表示用户概貌,用户兴趣被分为长期兴 趣和短期兴趣,且被标记。根据商品的本体类来自动更新用户兴趣类,且结合本 体推理寻找缺失的兴趣。 ( 4 ) 冷启动问题 冷启动( c o l d s t a r t ) 问题可以看成是稀疏性问题的极端情况,是指没有足够 的评价数据时推荐新项目或者向新用户推荐所面临的困难。由于没有用户对新的 1 8 硕士学位论文第三章基于云模型的项目评分预测推荐算法 第三章基于云模型的项目评分预测推荐算法 由于用户评分数据的极端稀疏性,以及传统的相似性度量方法不能有效地计 算目标用户的最近邻居,难以保证推荐系统的推荐质量。本文先基于云的相似度 计算项目之间的相似性,选择相似性最高的为项目的邻居来预测未评分项目的评 分,使得用户一项目矩阵的元素增多,从而解决用户评分数据的稀疏性问题。 3 1 传统的项目相似性度量方法 项目相似性的度量的方法主要有3 种:余弦相似性,p e a r s o n 相关相似性, 修正的余弦相似性【外5 5 1 。 ( 1 ) 余弦相似性( c o s i n e ) :考虑两个评分向量的夹角,夹角越小说明相似 性越大。项目评分被看作是甩维项目空间上的向量,项目间的相似性通过向量间 的余弦夹角来度量。设项目i 7 1 1 j 在n 维项目空间上的评分分别表示为向量了和7 , 则项目i 和,项目之间的相似性为 酊叭l d _ c o s o 卜晌 公式。1 ( 2 ) 相关相似性( c o r r e l a t i o n ) :用来测量两个评分向量的线性关系,是协 同过滤推荐系统中最常用的加权方法。将项目f 和项目,有共同评分的用户集合 用表示,则项目i 和项目,之间的相似性s i m ( i ,j ) 通过p e a r s o n 相关系数度量: 州“,2 高等赫蛐3 国 其中,如,表示用户c 对项目f 的评分;r 和q 分别表示项目f 和项目的 平均评分。 ( 3 ) 修正的余弦相似性( a d j u s t e dc o s i n e ) :使用余弦相似性计算相似性有一 个重要的缺陷一没有考虑不同用户的评分方式的不同。修正的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 决算补充合同范例
- 10类采购合同样本
- 会场租赁合同样本
- 2025年何时签订租房合同
- 消防岗亭换岗方案范本
- 养殖基地合作合同标准文本
- 养殖金蝉售卖合同样本
- 农村院落收购合同样本
- 农村流动养殖合同范例
- 农药化肥供应合同样本
- 物业管理保洁服务项目投标方案(投标方案)
- 2.2 逻辑思维的基本要求 课件高中政治统编版选择性必修三逻辑与思维
- 人教版(2024)英语七年级上册单词表
- 影响健康因素多 课件 2024-2025学年人教版(2024)初中体育与健康七年级全一册
- 钢结构防腐油漆施工方案
- 一年级上册劳动《各种各样的职业》课件
- 第九届全国大学生测井技能大赛备赛试题库-下(判断题)
- DB32T-职业性尘肺病数字化诊断标准片使用指南编制说明
- icu手册第一部分-常见病诊疗规范
- GB/T 4706.17-2024家用和类似用途电器的安全第17部分:电动机-压缩机的特殊要求
- 河湖生态系统保护与修复工程技术导则
评论
0/150
提交评论