协同过滤算法到应用_第1页
协同过滤算法到应用_第2页
协同过滤算法到应用_第3页
协同过滤算法到应用_第4页
协同过滤算法到应用_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.协同过滤推荐模型总体思路协同过滤推荐模型主要涉及协同过滤算法(协作型算法),CollaborativeFiltering,也称CF算法。1.1CF算法用户行为与其他用户行为比较,找出其相似的邻居,根据邻居的兴趣或偏好,预测该用户的兴趣、偏好。1.2主要步骤(1) 构建用户档案通过用户对产品的各种行为(表现出的各类指标),最终形成用户与商品的评分矩阵;(2) 生成最近的邻居通过计算相似度,目标用户与数据库内用户(群)的相似度,选取相似度最高的用户(群)作为目标用户的邻居;(3) 推荐产生根据目标用户的邻居,运用一定的推荐算法,为用户推荐符合的邻居的产品。2协同过滤推荐算法主要有两种算法传统(记忆)的协同过滤2.1.1计算相似度的方法Person相关系数工(R-R)(R-R)sim(sim(i,j)=wi,jkwI(R-R尸'工(R-R尸i,k i /,k jkel.其中,Ii7是用户i,j共同评分的商品集合,R,R分别表示用户i和用户jij j,k i,k对商品k的评分,R,R分别表示用户i和用户j在各自己打分项目上的评分平ij均值。余弦相似度sim(isim(i,j)二cos(i,j)二—►—►i-jII门1*11了II工RRkikjkilleille!ileij其中:R为用户i对商品k的评分,I为用户i评过分的商品集合,k是用户iik i与用户j重合的评分数目。模糊相似度欧几里得相似度2.1.2商品的预测评分ppa,iK艺sim(a,u)R或pu,i a,iu=1

=R+kFsim(a,u)(Ra u,iu=1其中:sim(a,u)是目标用户a与邻居用户u的相似度,R是邻居用户u对项目u,ii的评分值,R是邻居用户u的平均评分,K为目标用户和各邻居间相似度值之u和的倒数。sim(a,u)2.1.3推荐方法基于用户的协同过滤基本思想:先找到目标用户的邻居用户,根据需求在邻居用户中选取最相似的k个邻居,再根据这k个邻居对各产品的评分,通过加权预测出目标用户对产品的评分。基于商品的协同过滤基本思想:找出与商品i评分相似的邻居商品,再取j个最相似的邻居商品,再把这j个邻居商品的评分加权,预测目标用户对商品i的评分。2.1.4传统协同过滤算法的步骤(1) 用户--产品的评价矩阵通过用户—产品的各项指标,得出用户—产品的评价矩阵。(2) 确定用户的邻居计算目标用户/商品与数据库中用户/商品的相似度,取相似度最高的作为邻居。(3) 推荐方法由用户协同过滤和商品协同过滤两个角度,分别预测目标用户对位置商品的评分。推荐规则:选择商品评分前n个商品进行推荐;设置阀值,选取高于阀值的商品进行推荐基于模型的协同过滤算法2.2.1贝叶斯聚类基本思想:基本思想是通过已知用户的评分数据估计出用户对商品i的评价分布和条件概率参数,再由目标用户的已知信息估计出目标用户对商品i的评分,进行推荐。用户u对商品i的期望得分:

E(u,i)=£P(R=kIU)xku,ik=0优点:所需参数少,对缺失数据不敏感,能够为用户建立高效的偏好模型,可以有效的解决数据稀疏性和超高维问题。缺点:随用户量和数据量的增大,贝叶斯网络模型需定期重建,耗时长,故不适用于更新迅速且用户兴趣变化频繁的环境。2.2.2聚类算法基本思想:将具有类似特征的商品或用户进行分组,形成不同的偏好模式,对于目标商品或用户,先判断其所属类别,再在该类别中搜索最近邻,根据最近邻的评分预测用户对项目的评分。常用的聚类算法为K-means算法。??优点:通过聚类将用户的最近邻搜索空间局限在每一个类别中,有效的减小了搜索空间,解决了推荐的实时性问题。缺点:用户只能属于一个单独的类别,无法记录用户的多兴趣特征另外,数据的超高维特征使得推荐性能下降。2.2.3奇异值分解2.2.4神经网络3.协同过滤算法的应用3.1在数据库中建立标本数据3.1在数据库中建立标本数据基本思想:先对商品进行统计,依据某些指标对用户进行分类,得到用户对商品评分的矩阵,存放于数据库中,作为初始数据。步骤:(1) 用户进行分类:按照指标(2) 用户对每个商品的评分;(3) 形成用户商品的评分矩阵。存放于数据库中备用商品1商品2商品3商品i标本1评分标本2标本k样本指标Arpu值套餐使用流量性别年龄上网时段上网类型等指标的选取:指标的选取应该考虑是否影响对商品的需求,例如上网类型等。指标的统一:选取了指标之后,如何使不同的指标不同的单位,能够统一,形成每个标本或用户的向量。判别目标用户的临近用户基本思想:取用户的指标,应用余弦相似度或者是person相关系数的方法,计算目标用户与标本数据的贴近度,取贴近度最高的k个样本作为目标用户的临近用户。步骤:(1) 计算相似度;(2)确定k个相似度最高的样本。加权预测目标用户对商品的期望评分基本思想:分析目标用户的k个临近用户对商品的评分,对这些评分进行加权预测目标用户对商品的评分,评分前几

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论