推荐算法综述_1_第1页
推荐算法综述_1_第2页
推荐算法综述_1_第3页
推荐算法综述_1_第4页
推荐算法综述_1_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、推荐算法综述推荐算法综述苏芳芳 2014-10-14电子商务推荐电子商务推荐l将电子商务系统的浏览者转变为购买者:浏览者经常没有购买欲望,电子商务推荐他们感兴趣的商品,从而完成购买过程。l提高电子商务系统的交叉销售:推荐用户确实需要但是在购买过程中没有想到的商品列表。l保留用户:提高推荐质量,让用户对该系统产生依赖。研究内容和方向研究内容和方向l推荐技术研究l实时性研究l推荐质量研究l多种数据多种技术的集成l数据挖掘技术的应用(关联规则挖掘、序列模式挖掘、聚类 分析、贝叶斯分类)l用户隐私保护研究l推荐系统可视化研究(可视化研究和推荐结果解释研究)推荐算法主要算法推荐算法主要算法l协同过滤推荐

2、算法l基于内容的推荐算法l基于图结构推荐l基于关联规则推荐l基于知识推荐l混合推荐协同过滤推荐协同过滤推荐l协同过滤推荐算法有: 基于用户的协同过滤推荐算法 基于项目的协同过滤推荐算法 基于降维的协同过滤推荐算法 基于聚类的协同过滤推荐算法基于用户的协同过滤推荐基于用户的协同过滤推荐l基于用户协同过滤推荐根据其他用户的观点产生对目标用户的推荐列表基于用户的协同过滤推荐基于用户的协同过滤推荐l算法步骤:1、数据表示:对用户已经购买过的商品进行建模2、最近邻查询:计算相似度,搜索当前用户的最近邻居3、推荐产生:根据最近邻对商品的评分预测当前用户对商品的评分,产生top-N商品基于用户的协同过滤推荐

3、基于用户的协同过滤推荐1、数据表示基于用户的协同过滤推荐基于用户的协同过滤推荐2、最近邻查询计算当前用户和其他用户的相似度,选择相似度高的若干用户作为最近邻。相似度计算: 余弦相似性 修正的余弦相似性 相关相似性(pearson correlation) 基于图结构的相似度基于用户的协同过滤推荐基于用户的协同过滤推荐l相似度计算方法余弦相似性:修正的余弦相似性:相关相似性:基于用户的协同过滤推荐基于用户的协同过滤推荐3、推荐产生计算用户u对项i的预测评分Pu,i : 选择评分高的的若干项目推荐给用户u。基于项目的协同过滤推荐基于项目的协同过滤推荐l基于项目协同过滤推荐根据用户对相似项最近邻居的

4、评分产生对目标用户的推荐列表基于项目的协同过滤推荐基于项目的协同过滤推荐l算法步骤:1、最近邻查询:搜索目标项的最近邻居2、推荐产生:根据用户对目标项最近邻居的评分预测用户对目标项的评分,产生top-N商品基于聚类的协同过滤推荐基于聚类的协同过滤推荐l将整个用户空间根据用户的购买习惯和评分特点划分为若干个不同的聚类;l根据每个聚类中用户对商品的评分信息生成一个虚拟用户,将所有虚拟用户对商品的评分作为新的搜索空间;l查询当前用户在虚拟用户空间中的最近邻居,产生对应的推荐结果。l查询效率高、实时响应快基于聚类的协同过滤推荐基于聚类的协同过滤推荐- -划分聚类划分聚类lK-means聚类算法:1).

5、随机选择k个用户作为种子节点,将k个用户对项的评分数据作为初始的聚类中心。2)对剩余的用户集合,计算每条用户与k个聚类中心的相似性,将每个用户分配到相似性最高的聚类中。3)对新生成的聚类,计算聚类中所有用户对项的平均评分,生成新的聚类中心。4)重复以上2到3步,直到聚类不再发生改变为止。基于聚类的协同过滤推荐基于聚类的协同过滤推荐l虚拟用户集生成根据不同的聚类生成对应的聚类中心,聚类中心与聚类中其他用户的距离之和最小,代表该聚类中用户对商品的典型评分。将所有的聚类中心作为虚拟的用户集合。基于聚类的协同过滤推荐基于聚类的协同过滤推荐l推荐产生在虚拟的用户集合上使用各种相似性度量方法搜索当前用户的

6、若干最近邻居,然后根据最近邻居对商品的评分信息产生对应的推荐结果。最近邻搜索和推荐产生的方法跟协同过滤推荐算法类似,在此不再赘述。协同过滤优缺点及改进协同过滤优缺点及改进l协同过滤优点:交叉推荐l协同过滤缺点:冷启动基于内容的过滤基于内容的过滤l协同过滤方法只考虑了用户评分数据,忽略了项目和用户本身的诸多特征,如电影的导演、演员和发布时间等,用户的地理位置、性别、年龄等.如何充分、合理的利用这些特征,获得更好的推荐效果,是基于内容推荐策略所要解决的主要问题。l主要算法:l文本推荐方法l基于潜在语义分析的推荐l自适应推荐文本推荐方法文本推荐方法l基于内容的推荐方法根据历史信息(如评价、分享、收藏

7、过的文档)构造用户偏好文档,计算推荐项目与用户偏好文档的相似度,将最相似的项目推荐给用户。l相比于多媒体信息(视频、音频、图片等),文本类项目(新闻、网页、博客)的特征提取相对容易,因而基于内容的推荐方法在文本类推荐领域得到了广泛应用。基于潜在语义分析的推荐基于潜在语义分析的推荐l关键词的同义和多义现象往往导致文档相似度计算不准确。l基本思想:采用文档-词矩阵奇异值分解的方法将文档和词语映射到同一个低维的潜在语义空间中计算各文档与用户查询之间的相似度,据此返回最相关的文档l缺点:采用奇异值分解得到的潜在语义空间物理意义不明确,矩阵的奇异值分解计算量大。自适应推荐自适应推荐l基于内容推荐的关键是

8、 构建和更新用户偏好文档。l用户的兴趣会随时间动态变化。l解决方法:采用贝叶斯分类、决策树、聚类、人工神经网络等机器学习方法。基于内容的推荐算法基于内容的推荐算法l缺点:新用户问题、过拟合问题、多媒体信息特征难提取等。基于关联规则推荐算法基于关联规则推荐算法l关联规则就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同事购买了商品集Y。l基于关联规则的推荐算法根据生成的关联规则推荐模型和用户的购买行为向用户产生推荐。l关联规则推荐模型的建立离线进行,可以保证有效推荐算法的实时性要求。基于图结构的推荐算法基于图结构的推荐算法1、用户-项目矩阵可建模为一个二部图(bipartite

9、graph),其中节点分别表示用户和项目,边表示用户对项目的评价。基于图结构的推荐算法基于图结构的推荐算法2、计算资源分配矩阵W。项目j到项目i的资源分配权重wij计算如下:l其中Dj表示节点j的度。基于图结构的推荐算法基于图结构的推荐算法3 、 针 对 指 定 用 户 计 算 各 项 目 的 资 源 分 配 。 令fi=(ai1,ai2,aim)表示用户i的对m个项目的初始资源分配,fi表示用户i的对m个项目的最终资源分配,则有fi=Wfi 。4、根据fi产生推荐列表。按fi中从大到小的顺序排列生成一个推荐项目列表(用户已经偏好的项目除外)。基于知识的推荐算法基于知识的推荐算法l协同过滤和基

10、于内容的推荐算法各有优势。但在很多情况下这些方法并不是最好的选择。比较典型的是,我们并不会非常频繁的购买房屋、汽车或计算机。 这样我们可能无法依赖购买记录。l基于知识的推荐不需要评分数据,没有冷启动问题。l基于知识的算法根据显示知识领域 模型进行推理。基于知识的推荐算法基于知识的推荐算法l用户必须指定需求,然后系统设法给出解决方案。如果找不到解决方案,用户必须修改需求。此外系统还要给出推荐物品的解释。l“汽车的最高价是X,颜色应该是黑的”混合推荐算法混合推荐算法l混合推荐是为解决协同过滤、基于内容和基于图结构推荐算法各自问题而提出的,达到“相互取长补短”的推荐效果。例如,基于内容方法可以解决协

11、同过滤中“新项目”问题,而协同过滤可降低基于内容算法面临的“过拟合”问题。l混合推荐可以独立运用协同过滤、基于内容和基于图结构的推荐算法,将两者或多者产生的推荐结果进行融合,再将融合后的结果推荐给用户。问题和分析问题和分析l推荐算法缺点和挑战 数据的稀疏性 冷启动 可扩展性 实时性 特征提取 推荐结果解释 过拟合 托攻击问题 隐私问题 多种数据和多种推荐技术的有效集成 自动化推荐(根据用户行为,不一定要 显示评分)数据的稀疏性数据的稀疏性l数据稀疏性的解决办法:降维技术-压缩矩阵(采用奇异值分解方法删除不重要的或噪音用户和项目)采用潜在语义索引技术将 用户-项目 矩阵转换成 用户-类别 矩阵矩

12、阵填充技术(BP神经网络、Nave Bayesian分类方法、基于内容的预测、基于项评分预测的IRPRec)冷启动冷启动l 协同过滤的缺点:冷启动l冷启动问题的解决方法:基于内容的最近邻居查找技术可扩展性可扩展性l可扩展性解决方法: 降维 聚类 分类SVD等降维技术、基于最近邻的KNN算法、新的最近邻度量相似度支持度、基于模型的CF算法(如聚类协同过滤算法)数据集数据集l常用的数据集:MovieLensEachMovieBookCrossingJester JokeNetflixUsenet NewsgroupsUCI知识库评价准则评价准则l统计精度度量:平均绝对误差MAE、均方根误差RMSE -为用户估计特定项目的评分l决策支持精度度量:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论