面向个性化推荐系统的自适应算法的研究与实现-计算机应用技术专业毕业论文_第1页
面向个性化推荐系统的自适应算法的研究与实现-计算机应用技术专业毕业论文_第2页
面向个性化推荐系统的自适应算法的研究与实现-计算机应用技术专业毕业论文_第3页
面向个性化推荐系统的自适应算法的研究与实现-计算机应用技术专业毕业论文_第4页
面向个性化推荐系统的自适应算法的研究与实现-计算机应用技术专业毕业论文_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.@:OOrgnayNocehiPresenng面5tessinP翻alfufmentofterquiemensfrteMater5degreeatEastChaNormalUnveri,IwarattattistessorgialandanyofteecquesPeendinteteshavebenfguedoutbyme.AnyofterfrneestotecoPyightadmakPaen,0理rorPrPreyrghtofoteshavebeenexPetyaknowedgedandiudednteReerneeseonattendoftiste.孰 n:储2‘CoPyrghtNoce1hereinagreehatteLbrayofECNUshalmaketseoPesfeeyavaabeforinsPecon.I允eragreehatexensiecoPyigofthetess5aowabeonyforsehoayPurposesinPatcula,SorngtheeonetoftisthessioreevatdaabasesaswelaseomPigandPubshngthetteandabtatof而5teeonssntwihueasPerbedinteCoPyightLawofThePeoPe5RePubeofCn几一辜疥 “显显蟹氢硕士学位论文辩委会成名单名 职称 单位 备注咬J匕,, 终身教授 华东师范大学 答辩主席口 高工 华东师范大学 答辩委员静 副教授 华东师范大学 答辩委员摘 摘 要随着et和信息技术的飞速发展,益严重的信息过载和信息迷向”问题助推了个性化推荐系统的蓬勃发展现有的个性化推荐技术在一定程度上缓解了人们寻找自己喜好信息的压力和开销本文通过对现有推荐技术尤其是推荐算法的深入分析揭示了现有推荐算法的特征和局限性— 难以满足前大型推荐系统的高推荐精度和扩展性需求,并进一步归纳了推荐系统框架,说明了现有的推荐技术的瓶颈所在:用户兴趣模型的表示方法不科学以及相应推荐算法的低性能问题。本文接着重点在用户模型和推荐算法两方面提出了改进的方法用户模型方面提出了利用机器学习算法来建立用户兴趣模型UAM)的方法和过程推荐算法方面提出了CBD相似度计算方法与CFUPS协同推荐算法,分别改善了推荐算法的相似度计算精度和推荐结果的精度。进而,本文基于UAM兴趣模型以及BD、CFUPS方法提出了一种适应推荐算法ARA)。该算法以标用户为中心,采用协同过滤的思想,基于UAM兴趣模型,对不同的用户适应地赋予相应的推荐参数来为标用户提供其最感兴趣的信息,进行个性化推荐。最后,通过实验分析来验证本文提出的算法的有效性,并且同其他主要推荐算法进行了对比。实验结果表明本文提出的适应推荐算法较传统的推荐算法在推荐精度和扩展性方面都有一定的改善。关键词:个性化推荐,协同过滤,用户兴趣模型,相似度计算,适应推荐华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现AbstraCtwhterPddeveopmentofthehtemetandinformatontechnoo跳 theprobemofnfonnaon overoadng and nformaon amazing,whch wearehavng been加stated,hasbeeamemorean moreworse.Ad alheseboostthefo硕shingdeveoPmeni of PersonaiZed reeonn endaton sysem. Present Personlzed,reeornrQendaioneehnoogyhaseasedthePressue andeostforPeoPefndngtheir运eresednfonnaion.ThisPapershowsuste characersieandmtaonofPresetconedion go,weh e notbeo y e qemet ofrecoln endaionPreeseandseaabt,hroughdeePeseaehandanaysitoteexsngreeorrnendaoneelmoog.Furhermore面5Paperunlnaizethefeworkofreeornendaonsysem andeXPanste boteneekofPresenireeonunendatoneenooy:mPeceexreg ruereetmodelndow Peomceofrecoln endaonagorUns.hinextseP,tisPaperemPhaszeste modeingofusernierestmodelandrecorornendaonalgorbmsandProPosestemProvedmehods.ForusermodeingwentodueethemehodsandapProachusngmachneengteor.Forreeonrnendaiongom,ePtwdCBDmPovedCBockDance)reomPngmiybeeenuesndCFUPSeoboivengbaedonusPal而aiy)foreeommendaon.ThenweProPoseteARAadatvereeormendaionagorhm)basedonUAM nteestmodeCBDandCFUPSehfocungon agetuser5iteresadoPngthedeaofeoaboraveflerngbasedonUAM nierestmodel盼dvenserPoledndtegOm0nI0uhadpveyaungerecornrnendaonParancterforeachuser.ieedwevdehevldyoforPoPoedagoms0uhePeme,阶deomParewithPresentrecornrnendaonagorhms.Theresusshow usthatourmetodsouPe而rm te exsngmethodsneeonn endaionpeeseand恤eeo,whcheonrbuteteexeeetPeronnaceofPersonazedrecolm endaonsysem·华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现:Personalzed eoaborave useriterestmodel,maity adaPvereco~ endaion华华东师范大学硕士学位论文 面个性化推荐系统的适应算法的研究与实现目 录摘 要…1Abtact……2第一章 引言111个性化推荐系统的蓬勃发展112推荐算法的现状与瓶颈513本文的研究思路64论文的结构安排7第二章 相关推荐技术821协同过滤推荐技术82.2其他推荐技术介绍1823本章小结21第三章 个性化推荐系统的框架2231个性化推荐系统框架2232现有的用户模型及相关推荐算法分析23321推荐系统的用户模型分析23322推荐系统相关推荐算法分析2533用户适应模型田月哟25331UAM兴趣模型构建253311问题阐述253312.兴趣模型构建26332UAM兴趣模型更新3034本章小结30第四章 ICBD和CFUPS推荐算法3141改进的ctBockDisance的相似性计算方法aCBD)31411现有相似性计算方法的局限性31412CBD相似性计算方法3242基于用户兴趣局部相似性的推荐算法(CFUPs)34421现有协作过滤算法的主要不足34422CFUPS推荐算法354221 用户兴趣局部相似兴趣的挖掘364222 计算相似性37423 用户评分的预测374224 产生推荐4043本章小结40第五章 基于UAM兴趣模型的适应推荐算法(ARA)4151ARA算法架构4152ARA算法介绍41521基于适应权重的用户相似性计算4152.2近邻用户计算方法43523预测评分44华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现524产生推荐4453本章小结44第六章 实验分析4661算法ICBD的性能分析与对比一46611数据集46612.实验方法47613.评价尺度47614.参数优化48615.性能对比4962算法CFUPS的参数分析与性能对比实验51621实验数据集一一526:2 实验方法526..3实验结果5363适应推荐算法ARA的性能对比实验55631数据集55632实验方法56633实验结果5664本章小结~58第七章 结论与展望5971本文工作总结5972工作展望59附录61参考文献61后记63华华东师范大学硕士学位论文 面个性化推荐系统的适应算法的研究与实现第一章引言11个性化推荐系统的蓬勃发展1LI个性化推荐系统研究背景当今世界,信息技术的迅猛发展,特别是e20的出现,使得互联网信息量成爆炸式增长,特网将世界各地的信息资源联接在一起,形成了一个内容丰富、包罗万象的信息海洋,真正地将人类带入了信息时代。bo的精髓就是以用户为本提升用户使用互联网的体验。中国互联网信息中心的统计数据显示从2000年到现在,中国网民的人数应从220万攀升到3亿,比去年同期增长了10万人,同比增长62%,这一数字将会持续快速增长。由于在e20模式下,每个用户都是信息资源的提供者和创造者。这使得网络资源异常丰富用户个性化需求也异常迫切尤其在网络搜索、网络购物、网络新闻、网络音视频服务等领域为用户提供个性化的服务成为企业商家具有竞争力的核心内容。据英国的Nt公司保守统计,截止206年,全球的网站数量已达1亿,而Gooe的个性化搜索能使得我们从这些巨大数量网站资源中尽可能地找到我们感兴趣的信息,这使得其成为全球最大的搜索引擎。0 万个20046 200412 20056 2005.12 20066 200612 20076 200712 20086图1中国网站数量增长情况著名的腾讯拍拍网在207年第二季度为止,注册用户已接近500万,在线商华华东师范大学硕士学位论文 面个性化推荐系统的适应算法的研究与实现品数量超过000万。作为用户,面对大量商品,如何在最短的时间内选出自己最感兴趣的商品是一个巫需解决的问题。表1中国网络购物使用率络购物 2006年l月 2007年1月 2007年2月2008年6月用率 20% 150% 22% 250%模(万人) 332 2055 4641 6329信息技术的发展带来了信息资源的极大丰富,使得人们获取任何自己需要的信息成为可能。然而在人们享受信息技术带来的便利的同时信息过载信息迷向”问题也日益严重。人们为搜寻自己需要的、有效的信息资源而花费的代价正日益增加。这些问题的产生推动了信息服务,尤其是信息检索、信息推荐的深入发展。这些发展体现在从传统的单纯的根据用户查询提供的关键词进行检索的信息检索系统发展成在动态环境下进行信息收集、分析及评价,并提供高效的信息服务的信息推荐系统。这是由于传统的信息检索系统存在着明显的缺陷,主要有以下几点:)不同用户由于背景知识和兴趣爱好的不同对信息资源的需要也不相同他们访问的往往都只是信息系统或因特网上某一个特定领域的资源子集,因此信息检索和信息反馈需要与特定领域用户的研究兴趣相结合。2)前大多数的信息检索系统对所有的用户都是千篇一律的界面检索方式和检索结果,用户无法准确地表述自己对特定领域和信息的兴趣和需求,即使是使用了先进的搜索技术,也不能在一个相对较短的列表中向用户提供精确的信息。)传统的检索系统一般是用关键词的字面进行匹配这样的检索一般精确度比较高,但是却遗漏了很多语义上概念相近的词语,因而无法为用户提供更多有效的信息。另外,对于用户的潜在兴趣,传统的检索系统也不能通过分析用户的访问行为访问历史和背景知识来发掘和描述用户的潜在兴趣,更无法进行面向用户的有针对性的推荐反馈。由于以上问题的存在,对信息检索系统中如何实现个性化的、智能化的服务功能逐渐成为人们关注和探索的热点传统的信息检索系统也逐步发展为个性化的信华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现息推荐系统,即从系统被动接受信息用户的请求转化为主动感知浏览者的信息需求,实现系统对信息用户的个性化的主动的信息服务个性化推荐技术正是针对上述情况提出来的个性化推荐系统针对某一领域,能够根据用户的描述文件、历史兴趣信息来进行用户兴趣行为分析依靠推荐引擎的算法主动为用户计算并推荐其感兴趣的信息。112个性化推荐系统应用实例个性化推荐系统是个性化服务技术的高级阶段,随着信息社会对个性化服务技术的需求的趋提高,个性化推荐系统蓬勃发展,应用范围十分广泛。)网页推荐:这类推荐系统向用户推荐符合其兴趣爱好的网页链接主要采用b数据挖掘的方法和技术来分析用户的兴趣。一些示例系统有:. Fb:Fb由斯坦福大学开发,它组合了基于内容过滤和协同过滤的技术,同时支持两种类型的推荐服务,用于推荐WV万网页。Fb系统由页面收集代理,个人推荐代理和中心路由器组成页面收集代理从b上收集特定主题的页面,个人推荐代理从特定主题中选择用户感兴趣的页面推荐给用户。个人推荐代理根据文档内容信息建立用户的用户档案,然后根据用户档案之间的相似性搜索用户的最近邻居。. GoupMk:提出了一个基于共享书签bonk)的vw推荐系统roPMk,它组合了协同过滤和信息过滤技术,并提供了推荐结果的可视化功能。2)新闻和邮件推荐. 几pe州pey]是一个实验性的邮件系统,用于推荐电子邮件和新闻。Pey有几个局限性:用户数比较少,所以数据集太小;要求用户用TQL提交信息,TQ(apeyQueyLnae是一种使用真值表达式的查询语句,增加了用户使用的难度;只适用于用户群体比较小的场合:缺乏安全性方面的考虑。Pey使用协同过滤技术,属于早期的主动协同过滤系统cveonbovet血),在这种系统中,只有指定的人群才会共享知识,也就是说,评分者和浏览者之间有某些直接关联。与主动协同过滤系统相对的另一个华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现概念是动协同过滤系统omconbrvengymACE)。. roPs:Goupn属于动协同过滤推荐系统它的主要功能是实现对新闻网的协同过滤,帮助人们在已有的文章中找到他们感兴趣的一部分。新闻阅读的客户端向用户显示对新闻评分的预测,便于用户在阅读新闻后对它们进行评分;一个名叫BtritBes的评分服务器端,负责收集和传送评分。Golns采用了开放式的体系结构,客户端和服务器端BrieBes的软件可以被独立开发。用户可以通过系统提供的PI函数向CPes服务器提供评分信息,请求推荐结果。适合于用户数量比较大的场合。3)书籍推荐. TwnFdr:一个在线书店所使用的推荐系统,该系统使用了两种技术来改进传统的基于内容的推荐:使用OdMcngMhdoMM技术来反映用户主动揭示的兴趣信息;使用rsMcgMhdCMM技术来反映用户隐含兴趣的信息。4)电影推荐. 叭eoeo~dr:协同过滤推荐系统硒doeond1用于电影推荐。它通过电子邮件的方式收集用户评分数据,提供推荐服务。它可以预测用户最喜欢的电影,也可以预测用户对特定电影的评分。ieoeo~ner系统提供推荐结果时,同时向用户提供最近邻居的电子邮件联系方式,以及用户与最近邻居的相似度等信息。. MoiLnS:动协同过滤推荐系统Mves由Mea大学开发,用于推荐电影。MvLns是一个基于Wb的推荐系统,系统通过浏览器的方式进行用户评分数据收集与推荐结果显示,方便了用户的使用。5)音乐推荐. Rgo:协同过滤推荐系统Rng1由MT媒体实验室开发,用于提供个性化的音乐推荐服务。几g。系统可以向用户推荐用户最喜欢的音乐,预测用户最不喜欢的音乐,也可以预测用户对特定音乐的评分。hdnnd和Mes在这一系统中实验了一组用于计算用户间距离的方法包括皮尔逊相关和余弦向量。他们比较了各种算法的平均绝对误差MenbeEm。华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现12 推荐算法的现状与瓶颈对于个性化推荐系统,最核心的部分是推荐算法。推荐算法的优劣直接关系到推荐系统的推荐质量和用户的使用感受在传统的推荐系统研究的综述中,一般也是以推荐算法的分类来区分不同推荐系统的各国的研究者们为了使得推荐算法产生精确的推荐结果保证推荐系统的实时性要求研究者提出了各种不同的推荐算法。如:关联规则推荐,基于内容的推荐,基于用户的协作过滤推荐,基于项目的协作过滤推荐,Byn网络技术,聚类技术以及基于图的Hog图技术等。其中,前比较流行的推荐算法主要有:基于规则的推荐,基于内容的推荐,协同推荐以及混合推荐算法。这些算法都在一定程度上解决了某方面的问题推进了个性化推荐技术的发展但是在一定的条件下还不能满足推荐系统的需求,还存在一定的瓶颈。关联规则技术在零售业得到了广泛的应用,关联规则挖掘可以发现不同商品在销售过程中的相关性基于关联规则的推荐算法根据生成的关联规则模型和用户当前的购买行为向用户产生推荐。关联规则模型的生成可以离线进行,因此可以保证有效地推荐系统的实时性要求然而随着系统规模的增大各种规则也随着剧增。因此对各种规则的管理和更新变得异常复杂影响推荐系统的推荐质量和扩展性。协同过滤是至今最成功的推荐技术并且在网络中许多成功的推荐系统己经得到使用协同式过滤推荐产品给用户是基于其它用户的偏好信息协同推荐系统使用历史记录来识别用户的邻居并且分析这些邻居来识别有可能被这个用户喜欢的信息,我们叫这种方法为基于用户的协同推荐算法。传统的协作过滤推荐通过用户的最近邻居产生最终的推荐,基于项目的协作过滤推荐首先计算项之间的相关性然后通过用户对相关项目的评分预测用户对未评分项目的评分。对于协同过滤技术,存在冷启动、数据稀疏性和扩展性问题。Byn网络技术利用训练集创建相应的模型,模型用决策树表示,节点和边表示用户信息训练得到的模型非常小,所以对模型的应用非常快。这种方法适合于用户的兴趣爱好变化比较慢的场合。聚类技术将具有相似兴趣爱好的用户分配到相同的簇中,聚类产生之后,根据簇中其他用户对商品的评价预测标用户对该商品的评价。由于聚类过程离线进华华东师范大学硕士学位论文 面个性化推荐系统的适应算法的研究与实现行所以在线的推荐算法产生推荐的速度比较快聚类技术虽然提高了系统的扩展性,但是聚类会导致同类别内部的兴趣的同化,偏离个性化。且类别的更新很耗时。H叭g图技术是一种基于图的方法节点代表用户边代表两个用户之间的相似度。在图中搜索近邻节点,然后综合近邻节点的评分形成最后的推荐。Hog图技术可以跳过中间节点寻找最近邻居考虑了节点之间的传递相似关系。该算法将用户之间的相似关系归纳为图结构,可利用现有的图的多种算法来求解问题,但是该技术本质上并没有解决扩展性问题。除此之外,H沙d系统还通过将各种不同的过滤技术进行混合应用以得到更好的推荐针对数据的极端稀疏性问题文献]提出通过奇异值分解sVD减少项目空间的维数,使得用户在降维后的项目空间上对每一个项均有评分,实验结果表明,这种方法可以有效地解决同义词ynonm)问题,显著地提高推荐系统的伸缩能力。但降维会导致信息损失,降维效果与数据集密切相关,在项目空间维数很高的情况下,降维的效果难保证。13本文的研究思路现有推荐算法在某些方面提高了推荐系统的性能但是面对大规模的推荐系统,随着数据量的剧增,现有推荐算法存在瓶颈。本文通过对现有算法的分析和总结,认为个性化推荐系统面临着两个基本挑战:. 推荐系统的质量:数据的稀疏性以及较低的数据利用率使得推荐系统推荐质量降低。推荐系统必须向用户产生有价值的推荐,否则用户就对系统失去了信心。. 算法的可扩展性:随着系统数据量的迅速累积,推荐系统面临着越来越严重的扩展性问题,难以满足系统实时性要求。本文为应对上述问题,提出一种基于用户适应模型的个性化推荐技术,本文工作简述如下:)利用机器学习技术来建立用户适应模型。华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现)基于该用户适应模型采用协同过滤的思想构建相关的推荐算法并建立个性化推荐系统。)通过实验来验证推荐算法的有效性及同传统协同推荐技术的优越性。14 论文的结构安排本文主要研究个性化推荐系统的适应算法并进行实验验证文章的结构安排如下:第一章主要介绍了个性化推荐系统的发展以及相关推荐算法的现状与瓶颈。第二章主要描述了现有的相关推荐技术。其中重点介绍了协同过滤推荐技术,因为本文的适应算法也借鉴了协同过滤的思想。第三章总结了个性化推荐系统的框架结构其中重点分析了框架中用户模型的表示以及推荐算法模块的重要性。最后提出了一种用户适应模型UAM),并给出了构建的过程。第四章提出了两种算法将被应用到第五章提出的自适应推荐算法当中CBD是基于Cylo-ice的一种改进距离计算方法用来计算用户之间的相似性。CFUPS是一种基于用户兴趣局部相似性的推荐算法。第五章是本文的核心提出了适应推荐算法ARA)该算法基于UAM兴趣模型以及CBD、CFUPS算法,对用户进行适应推荐。第六章是实验分析部分。实验均以Mvls 为数据集,分为三个部分,分别对CBD、CFUPS和ARA算法进行了实验分析。华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现第二章相关推荐技术2,协同过滤推荐技术211协过滤推荐简介协同过滤推荐onboie仙igeo~ ndao)是前研究最多的个性化推荐技术它一般采用最近邻技术利用用户的历史喜好信息计算用户之间的距离,然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度,系统从而根据这一喜好程度来对标用户进行推荐。协同过滤最大优点是对推荐对象没有特殊要求,能处理非结构化的复杂对象如音乐、电影等,如Go即Les3]。基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的而且是自动的,即用户获得的推荐是系统从购买模式或浏览行为等隐式获得的,不需要用户努力地找到适合自己兴趣的推荐信息,如填写一些调查表格等。和基于内容的过滤方法相比,协同过滤具有如下的优点:)能够过滤难以进行机器动内容分析的信息,如艺术品,音乐等。)共享其他人的经验避免了内容分析的不完全和不精确并且能够基于一些复杂的,难以表述的概念(如信息质量、个人品味)进行过滤。)有推荐新信息的能力可以发现内容上完全不相似的信息用户对推荐信息的内容事先是预料不到的这也是协同过滤和基于内容的过滤一个较大的差别,基于内容的过滤推荐很多都是用户本来就熟悉的内容协同过滤可以发现用户潜在的但自己尚未发现的兴趣偏好。)能够有效的使用其他相似用户的反馈信息较少用户的反馈量加快个性化学习的速度。12协同过滤技术的实现流程协同过滤onbveengC)是应用最广泛最成熟的推荐技术它的基本思想是用户是可以按照兴趣分类的,同类用户具有非常相似的兴趣,因此可以由其他用户的资料协同过滤得到对标用户的推荐用户信息由项及用户对该项目的评分组成的向量表示即用户项矩阵矩阵中的数据是用户对项目的评分对华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现标用户的所有可能的推荐,肯定都包含在项集合中。协同过滤的意思,就是如何过滤这个项集得到对标用户的N个推荐项目因为我们是根据历史数据来进行推荐的,所以在CF技术中,一般不考虑用户的兴趣会随时间的推移而发生变化,即认为用户对项目的评分是不随时间改变的。协同过滤系统的主要实现步骤一般分为三步:用户信息的表示、邻居的产生和产生推荐,具体如图21所示。e… ④ O伙”呀),·扫SOUCeDatabasee用户信息表示 计算目标用户邻居 产生推荐项目集图21协同过滤步骤)用户信息表示用户信息的获取主要是指获得用户对项目的评价。这种评价一般分为显示评价和隐式评价两种显示评价是指协同过滤系统提供信息列表用户根据自己的兴趣,有意识的对这些项进行评价。隐式评价是系统根据用户的行为来分析得到用户信息,一般通过分析用户浏览时间的长短,购买记录,点击次数等获得信息。获得隐式评价有一定的技术难度,前大多数协同过滤系统都是使用前者。但是从长远来看,隐式方法更容易得到较多用户信息,并且能使供应商更具主动性。随着技术的发展,这个方法所占的比重将会越来越大。用户信息主要是用来描述用户的个人特征,以及消费习惯等我们一般用一个用户一项矩阵Rx来表示项代表购买商品(例如书本、文具等),或者查看标(例如在线观看的电影等))。矩阵的每个元素j表示用户i对商品j的评价值(例如购买频率或点击率)。2)居的产生华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现协同过滤最重要的步骤就是标用户的邻居的形成。所谓邻居,就是与标用户具有相似兴趣的用户。两个用户间的相似性用相似度m力度量。邻居关系的构造主要是为了对每个用户u找到一个邻居集u=凡从~从},使得mu凡)>mu从)>…>mu从)O)产生推荐根据目标用户的历史信息,以及他的最近邻居的历史信息,获得标用户对目标项的预测兴趣度,即预测评分值设用户的最近邻居集为戈对于用户u未评分的项目i的预测评分计算为:艺mx)=瓦+些 艺mI凡通过对用户u所有未评分项目的预测,根据预测评分的高低进行排序,选取前N项,产生op一推荐项集。213协同过滤技术分类根据过滤方法的不同,可以大致把协同过滤技术分为两种:基于用户的协同过滤和基于项目的协同过滤。简单的说,基于用户的协同过滤是根据用户和用户之间的相似性找到标用户的邻居用户然后根据邻居用户的历史信息给出对目标用户的推荐。基于项目的协同过滤通过分析项目之间的相似性,以目标用户己购买的,并且比较喜爱的(例如评价值较高的)项目为参考,把与这些项目相似的项推荐给目标用户基于用户的协同过滤技术是最先提出来的,所以在早期的文献提到的协同过滤技术,往往指的是基于用户的协同过滤技术。近几年来基于项目的协同过滤才开始研究的比较多。(1)基于用户的协同过滤华华东师范大学硕士学位论文 面个性化推荐系统的适应算法的研究与实现基于用户的协同过滤是根据用户的相似性来产生推荐,这很符合我们的生活经验很多人在购买商品的时候都会参考与己生活习惯或者爱好相近的亲戚朋友的购买经验,购买相似的物品。因此这个过滤方法要先找到最近邻居,根据邻居的情况对标用户给出推荐,即在相似用户集中得到推荐项集。GoPLns就是第一个基于邻近用户的协同过滤的系统。) 算法介绍基用户协过推荐应用最泛法它基邻户的兴趣爱好预测标用户的兴趣偏好算法先使用统计技术寻找与标用户有相同喜好的邻居,然后根据标用户的邻居的喜好产生向标用户的推荐。)信息表示:在一个典型的采用基于用户的协同过滤技术的推荐系统中输入数据通常可以表述为一个m的矩阵凡表示这个矩阵也称用户一项矩阵凡,表示m个用户对个商品的评价,表示用户i对商品j的评价值(例如购买频率或点击率),如表2l。表21户 项目II1 I22 Inll InnUUll 44 55 00 ll姚 33 55 55 llUm11 22 55 44 55UUmm 44 ll 55 44)计算邻居:基于用户的协同过滤技术实现的推荐系统的核心是为一个需要推荐服务的目标用户寻找最相似的最近邻居”集Neeeghbor),即对一个用户u,要产生一个根据与其相似度大小排列的邻居集合=N从…从},使得mu凡)>mu从)卜>mu从)用户之间的相似性的计算方法主要包括三种方法:夹角余弦相似性、eon相关相似性以及修正的余弦相似性。华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现余弦相似性(Cse):把用户评分看作是n维项空间上的向量,如果用户对项没有评分,则将用户对该项目的评分设为0用户间的相似性通过向量间的夹角余弦值来度量。设用户和用户j在n维项空间上的评分分别表示为量,,则用户和用户j之间的相似性m力表示如下:了 、mj)=o)= 了分子为两个用户评分向量的内积,分母是两个用户向量模的乘积。·相关似C):用户和j共评分过得项用表示则用户i和j之间的相似性m)通过en相关系数度量:艺.动c与sim(力= 2)这里,:、分别表示用户、j对项目的评分,、分别表示用户和j对项目的平均评分。修正的余弦相似性(AuedCse):在余弦相似性度量方法中没有考虑不同用户的评分尺度修正的余弦相似性度量方法通过减去用户对项目的平均评分改善述缺陷设用户和j共评过分的项集合用表示和毛分别表示用户i和j评分过的项目集合,则用户i、j之间的相似性sm力为:艺.动cC与smj)=一般来说,邻居用户的确定有两种方法,一是根据预先确定的相似性闭值,选择相似性大于闭值的作为邻居用户;二是根据预先确定的邻居数N,选择最相似的前N个用户作为邻居用户。华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现)产生推荐:标用户的最近邻居”集产生后,可计算两类结果:用户对任意项的兴趣度的预测值和兴趣度最高的op一形式的推荐集。标用户对任意项的兴趣度的预测值计算方法:设用户u的相应的已评价项集为u,则对u未评价的任意项t)的兴趣度预测值peuO计算如下:艺smuu)r)uCN)Preu)=兀+ 艺m) 4).Nu)其中,表示标用户的平均评分,N)表示标用户的邻居集合。乙表示邻居用户的平均评分。·op一 推荐集的产生:分别根据公式4)计算标用户对未评分项目的预测评分值,取评分值最高的前N个项目作为op一推荐集推荐给标用户。) 算法分析基于用户的协同过滤推荐的优势是很明显的。首先,它能够通过用户间的相互协助、根据用户对项目的评价的相似性对用户进行分类,找到标用户的邻居。这样能得到的推荐结果是比较精确的。其次,在基于用户的系统过滤系统中,所有用户都能从邻居用户的评价中受益,只要每个用户为系统贡献一份力量,系统就能维持比较好的性能这就是角色一致性oe耐)角色一致性能推动协同过滤系统性发展,使系统保持有效的推荐。最后,基于用户的协同过滤系统容易挖掘出标用户潜在的新兴趣,即能够实现奇异发现任何单个的推荐算法都存在着不足。基于用户的协同推荐的最大缺陷就在于不能解决稀疏问题。在图32所显示的用户项矩阵中,n和m的维数都是很大的,也就是说任何一个现实的推荐系统,所面对的用户数和项数都是很多的。很多情况下每个用户都只会对其中很少的项做出评价使得整个用户一项矩阵非常稀疏导致用户间的相似性计算不准确,得到的邻居用户也就不可靠。华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现(2)基于项目的协同过滤) 算法介绍基于项目的协同过滤推荐算法最早由Sn教授于201年提出。这种算法先计算标项和己评价项目的相似性,以相似度作为权重加权各己评价项目的评价分得到预测项预测值各项目间的相似性可以而且一般都是离线计算的有助于改善系统的扩展性。这个方法的根本思想是:一个用户将也会喜欢那些和他已经购买的项相似的项目在这类方法中历史信息(用户项矩阵)是用来反映项之间的关系的,比如一个项目的购买经常导致另一个项或一组相类似项目的购买。因此,该方法是利用用户项矩阵分析每个项目的相似性,在这个基础上计算被推荐的前N个项目。)两个项目的相似性测量:设和2代表用户项矩阵中两个项目列向量则此两个项目的相似性用相关系数表示:艺.动.动加(i)=艺瓜.}艺,上式中,是对项目、都有评分的用户的集合,·分别是用户对项.的评分,、瓦分别是项、的对应评分的平均值。)计算标用户未评分项目的邻居项集:设标用户a己经评分的项集为a…幼对未评分的任意项a计算项集合a各项相似性,预测评分如下:艺m)氏Pea)=+ 丫sm) 6)I。其中,表项平均评分。)得到op一个推荐项目:根据公式6)可以计算出对目标用户所有未评分项目的预测评分值,取评分最高的前N个项目 即为提供给标用户的推荐项目。华华东师范大学硕士学位论文 面个性化推荐系统的适应算法的研究与实现) 算法分析基于项目的协同过滤的思考角度是从项之间的相似性出发,它除了能提高推荐系统的扩展性还能够对推荐结果做出比较好的解释,因为大多数时候,特定的用户经常会对特定的一些商品感兴趣但是基于项目的协同推荐不能做出跨类型”的推荐,因为它推荐的总是相似的项目,也就不能挖掘用户的潜在兴趣。214协过滤问题分析()协同过滤推荐系统在应用中存在的问题)尽管协同过滤在电子商务推荐系统中的应用获得了较大的成功,但随着站点结构的复杂化,商品信息量和用户与日俱增基于协同过滤的推荐系统的发展面临着两个主要挑战:)提高协同过滤算法的可扩展性协同过滤算法能够容易地为几千名用户提供较好的推荐但是随着电子商务网站的发展,用户数已经达到成百上千万,这就一方面需要提高响应时间的要求,能够为用户实时地进行推荐;另一方面还应考虑到存储空间的要求,尽量减少推荐系统运行的负担。)提高推荐信息的质量用户需要值得信任的推荐系统来帮助他找到自己喜欢的信息或商品假如推荐系统老是推荐用户不喜欢的信息,或者用户相信推荐购买了商品,而后发现自己并不喜欢用户对推荐系统推荐结果的信任度降低同时将不愿再次使用该推荐系统。为了能够更好地改进协同过滤技术,适应推荐系统发展的需要,首先要分析协同过滤在推荐系统实现过程存在的问题,从而进行有针对性的改进。)前,协同过滤推荐系统主要受到数据的稀疏性和算法的可扩展性问题的制约:)数据稀疏性问题(Spy)协同过滤技术的基础是基于用户的历史信息,包括标用户和其它用户,这些信息通过用户一项矩阵来表示但是我们又发现,尽管电子商务系统中的项目非常多,但是并不是所有的项目大家都喜欢。一般情况下,多数用户购买商品的总量占华华东师范大学硕士学位论文 面个性化推荐系统的适应算法的研究与实现网站总商品量的%左右,因此造成了用户一项矩阵非常稀疏在这种数据量大而且又稀疏的情况下,一方面难以找到最近邻居用户集,另一方面进行相似性计算的耗费也会很大。同时,由于数据非常稀疏,在形成标用户的最近邻居用户集时,往往会造成信息的丢失,从而导致推荐效果的降低。例如邻居用户关系传递性的丢失:用户A与用户B相关程度很高,用户B与用户C相关程度也很高,但由于用户A与用户C很少对共同的产品进行评价,而认为两者关联程度较低,于数据的稀疏性,丢失了用户A与用户C之间潜在的关联。)算法可扩展性问题(cby)文献中把协同过滤算法分为全局数值算法和基于模型算法全局数值算法能及时利用最新的信息为用户产生相对准确的用户兴趣度预测或进行推荐但是前大多数电子商务系统的用户都很多商品信息更多,而一般的协同过滤算法却不能适应这种膨胀,性能也越来越差。这就是协同过滤算法的扩展性问题。虽然与基于模型的算法相比全局数值算法节约了为建立模型而花费的训练时间,但是用于识别最近邻居算法的计算量随着用户和项的增加而大大增加对于上百万的数目,通常的算法会遇到严重的扩展性瓶颈问题。该问题解决不好,直接影响着基于协同过滤技术的推荐系统实时向用户提供推荐问题的解决,而推荐系统的实时性越好,精确度越高,该系统才会被用户所接受;基于模型的算法虽然可以在一定程度上解决算法的可扩展性问题但是该类算法往往比较适于用户的兴趣爱好比较稳定的情况,因为它要考虑用户模型的学习过程以及模型的更新过程,对于最新信息的影响没有全局数值算法敏感。()现有的解决办法)奇异值分解(SVD):为了较好地解决协同过滤在推荐系统实现中存在的数据稀疏同义词(由于习惯或地域问题同类产品不同用户会使用不同的名称进行描述,从而无法发现这一相关性)等问题,前提出了使用在信息检索中被广泛使用的、用于解决同义词和多义词问题的降维技术一隐性语义索引(Letemcndex,华华东师范大学硕士学位论文 面个性化推荐系统的适应算法的研究与实现LI)。降维可以提高数据的密度,发现更多的隐性的用户评价信息,这对解决数据稀疏性问题是很有利的。LI使用奇异值分解SlraeDeoPsnSD)作为其矩阵分解的算法SVD可以很好的与协同过滤技术结合从而有效的降低数据噪声、发现潜在的关联,而且SVD计算可以离线进行。需要说明的是在使用SVD技术之前,需要对用户项矩阵进行规范化,例如将矩阵中评估值为0的项用相关列的平均值代替,即项的平均评估值接着将矩阵每行规范化为相同长度。选择不同数量项的用户对相似度计算结果的影响不同容易造成偏差规范化为相同长度后,降低了选择项数较多的用户对相似度计算结果的影响。经过这样的处理,可以得到矩阵R~,作为算法的输入矩阵。也正因为如此规范化会使矩阵不再能够完全真实地反映用户的信息,从而也就降低了推荐的质量。另外,虽然降维法在一定程度上解决了数据稀疏问题,可是当数据量非常大时,SVD训练所需的消耗非常大。2)特征加权(Feuewtg)在协同过滤算法中用户之间的相似性可以通过计算皮尔森相关系数或向量相似性等方法来度量,但计算公式中对两个用户评价过的所有项的处理上是完全相同的,即处于同等地位没有重要与非重要之分,这可能会对预测结果的准确性上有一定的影响因此使用一些加权的方法来控制不同项(用户信息的描述项或特征项)对用户兴趣度预测的影响减小甚至消除某些项产生的消极影响提高与标项紧密相关项的影响,这样在一定程度上会提高推荐结果的质量,但会使得算法的扩展性进一步恶化。3)居用户的筛选基于全局数值的协同过滤算法是基于这样的假设:具有相似兴趣的用户会对相同的项目感兴趣。然而,在实际中这样的假设并不总是成立的。因此,为了提高系统结果的准确度,一方面可以通过给不同项赋予不同的权重.另一方面可以在最近邻居用户的选择上作一定的改进。在上文中提到计算用户间的相似性之后,一般按照相似性值的大小选取最近邻居用户如果有更好的方法选取这一集合中的数据,找到标用户的真正的”邻居,一方面提高预测的准确度,另一方面减少计算的复杂度邻居用户筛选的标华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现准主要有:用户的描述文件、用户的权威性以及基于具体应用的特殊用户。此举在一定程度上提高了算法的可扩展性。4) 聚类技术(Cueng)聚类技术是是基于某种距离计算方法,先将用户动划分成多个类别,不同类别用户群之间的距离尽可能大而相同类别中的用户尽可能相似然后在每个类别用户群内部,分别采用协同过滤技术来进行推荐聚类技术大大降低了为标用户寻找最近邻的时间开销,提高了算法的扩展性。但是存在一些缺陷)聚类的标准难以选择)每次更新聚类所需要的时间开销很大)每个类别中的用户群的兴趣会逐步同化,与个性化推荐”的初衷相违背,影响了推荐质量。22其他推荐技术介绍)基于内容的推荐技术基于内容的推荐Cobsdeo~dio)是信息过滤技术的延续与发展,它是建立在项的内容信息上做出推荐的,而不需要依据用户对项的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中,项或对象是通过相关的特征的属性来定义,系统基于用户评价对象的特征,学习用户的兴趣,考察用户资料与待预测项的相匹配程度,如PolWbwcher2和新闻过滤系统NewsWeeder]。用户的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏好改变而发生变化。基于内容推荐方法的优点是:不需要其它用户的数据,没有冷开始问题和稀疏问题。能为具有特殊兴趣爱好的用户进行推荐.能推荐新的或不是很流行的项,没有新项问题。通过列出推荐项的内容特征,可以解释为什么推荐那些项。已有比较好的技术,如关于分类学习方面的技术己相当成熟。缺点是要求内容能容易抽取成有意义的特征,要求特征内容有好的结构性,华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法研究与实现并且用户的口味必须能够用内容特征形式来表达不能显式地得到其它用户的判断情况。2)基于规则的推荐基于关联规则的推荐AcinRuebsdeo~ndin)是以关联规则为基础,把已购商品作为规则头,规则体为推荐对象。关联规则挖掘可以发现不同商品在销售过程中的相关性,在零售业中己经得到了成功的应用。管理规则就是在一个交易数据库中统计购买了商品集X 的交易中有多大比例的交易同时购买了商品集Y其直观的意义就是用户在购买某些商品的时候有多大倾向去购买另外一些商品。比如购买牛奶的同时很多人会同时购买面包。算法的第一步关联规则的发现最为关键且最耗时是算法的瓶颈但可以离线进行。其次,商品名称的同义性问题也是关联规则的一个难点。)基于知识的推荐基于知识的推荐KoldeadRco~ edo)在某种程度是可以看成是一种推理c技术],它不是建立在用户需要和偏好基础上推荐的。基于知识方法因它们所用功识不而有显别用知识ninlKolde是一种关于一个项如何满足某一特定用户的知识,因此能解释需要和推荐的关系,所以用户资料可以是任何能支持推理的知识结构,它可以是用户已经规范化的查询,也可以是一个更详细的用户需要的表示。)混合的推荐技术由于各种推荐方法都有优缺点,所以在实际中,混合推荐哪ybdeo~ndio)经常被采用。研究和应用最多的是内容推荐和协同过滤推荐的组合最简单的做法就是分别用基于内容的方法和协同过滤推荐方法去产生一个推荐预测结果,然后用某方法组合其结果。尽管从理论上有很多种推荐组合方法,但在某一具体问题中并不见得都有效组合推荐一个最重要原则就是通过组合后要能避免或弥补各推荐技术的弱点。在组合方式上,文献提出了七种组合思路:华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现加权t):加权多种推荐技术结果。变换Si):根据问题背景和实际情况或要求决定变换采用不同的推荐技术。混合诵e):同时采用多种推荐技术给出多种推荐结果为用户提供参考。特征织合伊ecobio):全合来不同椎荐数据源的特征被另一种推荐算法所采用。层叠Cce):先用一种推荐技术产生一种粗糙的推荐结果第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐。特征扩充Freumt):一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中。元级别M-v):用一种推荐方法产生的模型作为另一种推荐方法的输入。表22推荐方法对比推荐方 优点 缺点法基于内 推荐方法简单有效;不需要领域知识。 难发现用户的新兴趣;新容的推 用户问题;复杂的属性难荐 以表达。协同过 能发现用户新的兴趣点;不需要领域知识;随着 稀疏性问题;可扩展性问滤推荐 时间推移性能提高;推荐个性化动化程度高; 题;新用户问题;冷启动能处理复杂的非结构化对象。 问题。基于规 能发现用户新的兴趣点;不需要领域知识。 规则难以抽取,而且耗则推荐 时;产品名同义性问题;个性化程度低。基于知 能把用户的需求反映到产品上;能考虑非产品属 对象的知识难以获取;推识推荐 性。 荐是静态的。华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现3本章小结本章对协同过滤技术和其他主要推荐技术做了较为详细的介绍和分析。协同过滤在电子商务推荐系统中的应用虽然取得了很大的成功,但随着系统规模(用户数量、产品种类)的不断扩大,基于协同过滤的推荐系统也面临着很多问题。本章结尾并对各种推荐技术做了简单的对比。华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现第三章个性化推荐系统的框架31个性化推荐系统框架311个性化推荐系统框架介绍个性化推荐系统,简而言之就是根据用户以往的交互操作通过对用户访问数据记录的分析,动挖掘、表示和维护用户兴趣信息,并根据用户兴趣信息为其进行个性化推荐服务。本文根据推荐系统的特点,概括了推荐系统的框架结构,如下图所示:图31个性化推荐系统框架如图31所示,个性化推荐系统框架各个组件说明如下:用户日志数据库:记录用户对各种资源的访问记录以及用户的行为记录。规格化历史记录数据库:该数据库是存储对用户日志数据库规格化后的数据库。所谓规格化,是应个性化推荐引擎的需求,对原始数据库进行数据清理,以满足推荐算法对数据格式的要求。华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现资源数据库:记录系统资源的各种信息数据库。用户兴趣模型表示:该模块是基于规格化历史记录数据库和资源数据库、采用某种数学建模方法、对用户历史访问记录进行分析以及抽象化用户兴趣的过程。个性化推荐引擎:是推荐系统的核心模块,它采用某种推荐算法、基于用户兴趣模型为用户进行信息的个性化推荐。用户交互接口:该接口是个性化推荐系统向用户展示推荐结果并同用户交互的部分。312个性化推荐系统框架分析在个性化推荐系统框架的各个组件中其中最重要的是个性化推荐引擎和用户兴趣模型表示两部分。个性化推荐引擎中推荐算法是推荐系统的灵魂推荐算法的性能直接决定着推荐系统的成败。用户模型表示在推荐系统中也起着举足轻重的作用从广义上来讲,其也是推荐算法的一部分性能优异的推荐算法必然需要适合的用户模型表示方法,用户模型表示和推荐算法息息相关现有的大部分个性化推荐技术由于太注重了对推荐算法的改良而没有对用户模型表示方面做深入的分析,结果直接影响了推荐系统的性能和推荐质量。32现有的用户模型及相关推荐算法分析321推荐系统的用户模型分析()推荐系统用户建模概述用户兴趣与更新信息收集图32用户建模一般过程用户建模是个性化推荐系统的基础和核心要素之一,是开展个性化推荐处理的华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现前提条件。一般地推荐系统需要经过用户建模、项目匹配和推荐输出三个阶段来实现个性化推荐。用户建模是获取和维护与用户兴趣、需求或习惯相关的知识的过程(如图3),其结果将产生一个表示用户特有兴趣、需求偏好或模式的用户模型项目匹配阶段将以这一模型为依据运用各种推荐技术寻找出与其相匹配的项目,然后在推荐输出阶段将这些项目以预测值、op一推荐或者其他形式呈现给用户。由此可见,用户模型是推荐系统产生个性化推荐的主要知识源,其捕捉用户真实偏好的能力在很大程度上决定了推荐的成功与否。从应用要求看用户模型应当包含个体用户的兴趣模型和群体用户的行为模型。显然前者侧重于个体用户的兴趣发现和描述问题,后者侧重于群体用户访问行为及群体用户和资源对象或源项之间关系或特征模式分析基于用户兴趣模型,可以开展兴趣资源推荐,即针对当前访问的某个特定用户,主动将跟该用户兴趣内容一致或相似的资源对象呈现出来基于群体用户的访问行为和用户项矩阵,则可以开展协同资源推荐,帮助用户发现新的、可能感兴趣的资源。(2)推荐系统主要的用户模型分析对于现有的推荐系统,都会直接或者间接地运用到了用户模型。前的用户模型比较单一,对原始数据的抽象程度不够高。对前主要用户模型概括如下:·基于人口信息的用户模型该类模型主要是通过用户的注册信息以及调查信息而得到用户的一些属性信息,比如年龄、职业、国籍、教育背景以及相关领域的兴趣爱好等信息。这类模型获取的用户信息有限而且比较固定仅仅反映了用户某一时刻对部分信息的兴趣爱好可见根据此模型来匹配用户感兴趣的信息是不科学的,因为用户的兴趣是复杂多变的,不能进行个性化推荐。·基于内容关键词的用户模型该模型比较容易构建但是对于提高个性化推荐算法的质量和扩展性具有局限性。随着信息资源的剧增,众多的关键词会存在同义性、多义性、准确性和数据冗余等问题,内容关键词的抽取、管理和更新都比较困难,严重影响推荐系统的推荐精确度。·基于用户项评分矩阵模型华华东师范大学硕士学位论文 面个性化推荐系统的适应算法的研究与实现该模型对于提高个性化推荐算法的质量和扩展性具有局限性首先如何准确地获取用户对众多资源的评分信息。其次,随着信息资源的剧增,矩阵的维度增大,评分矩阵的稀疏性以及处理大量数据的耗时性,都使得推荐算法的性能低下。322推荐系统相关推荐算法分析对于推荐系统而言推荐算法是建立在用户模型之上的,由321分析可知现有的用户模型存在一定的不足影响了推荐算法的性能基于人口信息的用户模型、内容关键词的用户模型和用户项评分矩阵模型的推荐算法主要有基于内容过滤的推荐算法基于关联规则的推荐算法、基于协同过滤的推荐算法,其中基于协同过滤的推荐算法又分为基于用户的协同过滤和基于项目的协同过滤算法这类算法的优缺点已在第二章做了深入的分析主要问题可归纳为:用户的相似性计算问题和算法的扩展性问题。33用户适应模型UAM)鉴于传统个性化推荐系统中的用户模型存在数据稀疏性和扩展性问题,本文提出一种用户适应模型,具体做以下改进:引入兴趣量模型:对原始的用户项评价信息做进一步处理先运用机器学习算法或者领域本体知识对项资源进行语义分类然后基于该分类,统计用户在各个类别上的兴趣度,构建用户兴趣向量。这样,就用户对各个类别的兴趣而言,稀疏性大大降低,同时更好表达用户兴趣。设用户u;的兴趣模型为awau几waZual,31uAM兴趣模型构建 度性量肛}w.、度上的权重。该模型的构建过程如下文所述。.311 问题阐述随着推荐系统规模的增大用户的原始评分数据剧增,即用户的评分向量的维度极高。而传统的用户相似性计算方法,如eon相关系数都是基于用户原始评分向量来计算的,由此产生的计算复杂度很高,为用户推荐项目的耗时增加,导致华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现了系统严重的扩展性问题。本文为解决上述问题,用机器学习算法或者领域本体知识对项资源进行语义分类,然后基于该分类,统计用户在各个类别上的兴趣度,构建用户兴趣向量。3312.兴趣模型构建()资源分类:常用方法有决策树算法、svM算法、贝叶斯学习算法及领域本体语义分类方法。)决策树算法决策树可看作一个树状预测模型,它通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。决策树的核心问题是选择分裂属性和决策树的剪枝。决策树的算法有很多,有D3、C5、CART等等。这些算法均采用顶向下的贪婪算法每个节点选择分类效果最好的属性将节点分裂为2个或多个子结点继续这一过程直到这棵树能准确地分类训练集,或所有属性都已被使用过。下面简单介绍最常用的决策树算法分类回归树CAT1。分类回归树CART)是机器学习中的一种分类和回归算法。设训练样本集L{x…nYo其中,戈l,2,,)称为属性向量;Y称为标签向量或类别向量。当Y是有序的数量值时,称为回归树;当Y是离散值时,称为分类树。在树的根节点处搜索问题集数据集合空间)找到使得下一代子节点中数据集的非纯度下降最大的最优分裂变量和相应的分裂闭值在这里非纯度指标用G而指数来衡量,它定义为:)艺)艺,j其中,t)是节点t的G而指数,(i/O表示在节点t中属于i类的样本所占的比例,(j/O是节点t中属于J类的样本所占的比例用该分裂变量和分裂闭值把根节点l分裂成和如果在某个节点t处不可能再有进一步非纯度的显著低则该节华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现点t成为叶结点,否则继续寻找它的最优分裂变量和分裂闭值进行分裂。对于分类问题,当叶节点中只有一个类,那么这个类就作为叶节点所属的类,若节点中有多个类中的样本存在根据叶节点中样本最多的那个类来确定节点所属的类别;对于回归问题,则取其数量值的平均值。很明显,一棵很大的树可能过分拟合数据,但较小的树又可能无法捕获重要的结构树的最佳大小是控制模型复杂性调整参数,它应该数据适应的选择。一种可取的策略是增长一棵较大的树,仅当达到最小节点大小(比如)时才停止分裂过程。然后利用剪枝策略和5折或0折交叉验证相结合的方法来修剪这棵树,从而将一些噪声和千扰数据排除,获得最优树。b)SVM算法SVM法即支持向量机suppoterMahn法。由Vp血等人于95年提出,具有相对优良的性能指标]。该方法是建立在统计学习理论基础上的机器学习方法。通过学习算法,SVM可以动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的适应能力和较高的区分率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果。支持向量机算法的的在于寻找一个超平面H),该超平面可将训练集中的数据分开,且与类域边界的沿垂直于该超平面方向的距离最大,故SVM法亦被称为最大边缘洲x~Mg)算法所谓最优超平面就是要求超平面不但能将两类正确分开,而且使分类间隔最大;使分类间隔最大实际上就是对模型推广能力的控制,这正是SVM的核心思想所在。SVM学习算法最终归结为求解二次规划问题常用的SVM学习算法包括vMt、SMO、chr面g等。一般而言,支持向量机有如下三个主要特点:结构风险最小化原则给出实际风险的上界保证学习机器具有好的推广能力。算法最终转化为一个线性约束的凸优化问题保证了算法的全局最优性和解的唯一性。·应用核技术将输入空间中的线性不可分问题转化为特征空间的线性可分问华华东师范大学硕士学位论文 面个性化推荐系统的适应算法的研究与实现)贝叶斯学习算法Bys法是一种在知先验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。设训练样本集分为M类,记为C二……气},每类的先验概率为(),il2M 。当样本集非常大时,可以认为()=类样本数总样本数。对于一个待分样本X,其归于类的类条件概率是(X/),则根据Bys定理,可得到c类的后验概率(i/X):(吼/X)=(X/)x()/(X)若ptX)低匆/X),i=M,j=2M有X。上式是最大后验概率判决准则,进一步有:若pX/cpc)枷 pe/X),i=2M ,j=2M ,则X只。这就是最大后验概率判决准则,这就是常用到的Bys分类判决准则。经过长期的研究,Bys分类方法在理论上论证得比较充分,在应用上也是非常广泛的。Bys方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数或密度函数常常是不知道的。为了获得它们,就要求样本足够大。此外,当用于文本分类时Bys法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。)基于领域本体语义分类方法一个本体提供了定义好的重要概念以及概念之间的语义关系的结构,Ogy的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇并从不同层次的形式化模型上给出这些术语词汇以及他们之间的相互关系的明确定义。对于某特定领域,建立领域本体好后,利用领域本体抽取项目的语义信息建立特定领域的语义分类树为了后续方便比较计算用户的语义相似性,华华东师范大学硕士学位论文 面向个性化推荐系统的适应算法的研究与实现将各项抽取出来的实例属性转换为向量表示,使用向量空间模型表示项目的属性。()类别权重根据 (1)可得到关于资源项目的语义属性信息,即属性向量,设为及抓几},每个项目的语义属性可分解为在该向量上的值,如项目t的属性量可表示为l}。进而,我们可以根据用户对项的评分数据来构造每个用户在语义向量万各分量属性上的喜好权重。构造方法如下:)对用户构造属频数量宾:初化数量只=仍户价过每个项;项性量为风}:一一UUhketdiske)基于上述公式可得到用户项属性频数矩阵凡,对于每个用户u,进一步来户性量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论