基于隐反馈的协同过滤推荐模型_第1页
基于隐反馈的协同过滤推荐模型_第2页
基于隐反馈的协同过滤推荐模型_第3页
基于隐反馈的协同过滤推荐模型_第4页
基于隐反馈的协同过滤推荐模型_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于隐反馈的协同过滤推荐模型技术创新,变革未来智慧IT目 录010203模型简介模型结构模型运行模型总结04一. WR-MF( Weighted Regularized Matrix Factorization )模型显反馈与隐反馈 协同过滤是指在预测一个用户对物品的喜好程度时,不仅仅依赖于该用户的历史记录,同时也要考虑其他用户的历史记录。其基本假设是兴趣相投、拥有共同经验的群体未来会喜欢相似的物品。协同过滤建模主要使用用户对物品的历史交互数据,也称为反馈数据。根据交互行为是否反映用户对物品的喜好程度可以把反馈数据分为两类:显式反馈,通常是指评分,直接反映用户对物品的喜好程度,例如豆瓣网提供用

2、户对电影15的评分;隐式反馈,例如点击、购买、看视频、听音乐等行为,其不能直接揭示用户是否喜欢一个物品,但能侧面反映出用户对物品的兴趣。 1.模型简介相比于显式反馈,互联网内容提供商更容易获得隐式反馈,例如电商/视频网站可以从服务器日志中直接获得用户的点击/观看历史。由于不需要用户显式提供打分,隐式反馈中的选择偏差较小,而且其规模相对较大。因此隐反馈推荐的应用更为广泛。与显式反馈类似,可以将隐式反馈数据描述为一个二维矩阵Y;不同的是这里Y中的每一个元素不是一个具体的打分,而是代表用户是否选择了某一物品:1代表选择,0代表没有选择。因此,建模隐式反馈更像是一个二分类问题预测用户选择一个物品的概率

3、。 1.模型简介隐反馈推荐算法 1.模型简介背景介绍一般而言,用户基于物品的显性反馈是可以出显示出用户对物品的喜好程度的。但是现实生活中其实还存在着很多的隐性反馈(比如购买记录、浏览记录,搜索记录等),这一类数据普遍都存在一个缺陷,即它们是很难有证据显示出用户对该物品的不喜欢程度毕竟用户的打分才是最直接表示喜好的一种行为。所以如何处理隐性数据,以及如何显示出用户对物品的喜好程度,成为了隐反馈推荐中亟待解决的问题。 1.模型简介模型选型 大多数推荐系统主要关注用户的显示反馈行为,如评分等,忽略用户的隐式反馈信息,如浏览记录等。 但是,显示反馈信息并不总是容易得到,在很多情况下,隐反馈则很容易进行

4、收集。传统的基于显示反馈的方法仅仅考虑了评分项,忽略了隐反馈中的大量缺失项目,明显不适用于隐反馈的推荐中。 为此,Hu等人在论文Collaborative Filtering for Implicit Feedback Datasets (ICDM ,2008)中提出WR-MF(Weighted Regularized Matrix Factorization)模型1。WR-MF模型引入了用户的喜好程度和置信程度来建模隐反馈数据,同时设计了交替最小二乘法( alternating least squares ,ALS)优化算法求解模型,效果取得到明显的提升1 Hu Y, Koren Y, Vo

5、linsky C. Collaborative Filtering for Implicit Feedback DatasetsC/ICDM. 2008, 8: 263-272. 1.模型简介模型选型WR-MF模型解决了隐反馈中对负反馈数据建模的问题,将隐反馈中的正样本和负样本统一建模,为隐反馈推荐算法的发展打下了重要基础。 由于在实际应用中,用户和物品的数据量是十分巨大的。为此,作者对于模型的优化并没有采用随机梯度下降等算法进行优化,而是设计了线性时间复杂度的ALS优化算法,使得其对于大型稀疏数据仍然能保持较好的预测性能,加快了模型的收敛速度,在工业界和大规模数据中也得到了广泛的应用。目前,

6、在Apacha Mahout和Spark中均提供了ALS算法和并行计算的支持,通过Hadoop(/users/recommender/intro-als-hadoop.html )平台的支持,我们可以很容易的实现工业级别下的个性化推荐系统的搭建, 1.模型简介参数解释 符号解释评分数据|或者次数的数据用户u对物品i的喜好程度m用户数量n物品数量X用户特征向量的矩阵(每一行代表用户, m* f ,f是潜在特征向量的大小)Y物品特征向量的矩阵(每一列代表物品,n* f) 2.模型结构模型框架 由于隐性反馈数据是不能显示用户的喜好程度的,毕竟用户的打分才是最直接表示喜好的一种行为。所以如何处理隐性数

7、据,以及如何显示出用户对item的喜好程度,成为了隐反馈推荐要研究的重要问题。 WR-MF模型把隐性反馈数据转换成了两个维度,一个是喜好程度(preference),代表用户是否喜好该物品,另一个是置信程度(confidence),表示用户对物品喜好的置信程度。以此,得出最后的分数。 2.模型结构 2.模型结构 2.模型结构 2.模型结构更新过程 2.模型结构 然后,令导数为0可得: 把x和y带入损失函数,使得损失函数最小。重复上面2和3步骤,直到达到自己想要的损失函数的最低值或者达到更新多少次的要求。 2.模型结构数据集划分根据用户的交互时间排序,采取leave one out策略,对于每一

8、位用户,我们将其交互记录中最新的一条作为测试集,剩下的数据作为训练集。 3.模型运行数据集我们使用Movielens-100k来评价模型的表现 。MovieLens-100k 是一份被广泛使用于验证 CF 算法表现效果的电影评分数据集。MovieLens 具有多个版本,在ALS实验中我们选择。在这个版本的 MovieLens 数据集中,包含943个用户对于1682部电影,拥有100000次评分记录。数据集地址:/datasets/movielens/。对于其中的评分项,我们将其分数全部置1,仅代表用户与该物品发生过交互。 3.模型运行判断对用户更新还是对物品进行更新代码实践-离线PyCharm

9、环境根据ALS推导进行更新 3.模型运行运行结果单组参数下,迭代20次后,模型的HR和NDCG的结果 3.模型运行正则化参数 alpha超参数迭代次数潜在特征向量维度代码调优 3.模型运行正则化参数正则化参数用来防止网络的过拟合情况,从上图可以发现:正则化参数为0.01时,网络表现较好。 3.模型运行alpha超参数alpha参数用来控制模型的置信程度,从上图可以发现:alpha参数为4时,网络表现较好。 3.模型运行迭代次数 迭代次数 迭代次数迭代次数控制着网络的收敛程度,一般随着携带次数的增加,网络表现也会变好。 3.模型运行潜在特征向量维度潜在特征向量维度控制着模型的表现力,随着维度的增

10、加,模型的效果也便也会随之变好,同时,模型的复杂度也会提高,过拟合情况也会越发严重。超过一定值时,甚至会导致模型效果变差。从上图可以发现:特征向量维度为30时,网络表现较好。 3.模型运行 WR-MF研究了隐式反馈数据集下的协同过滤推荐,这是一种非常常见的情况。我们的主要发现之一是隐式用户观察应该转换为两个成对的量级:偏好和置信水平。 换句话说,对于每个用户 - 项目对,我们从输入数据推导出估计用户是否喜欢或不喜欢该项目(“偏好”)并将此估计与置信水平相结合。这种偏好置信区分在广泛使用的显式反馈数据集中没有被纳入考虑中,但在分析隐式反馈方面推荐起着关键作用。 4.模型总结目 录010203模型

11、简介模型结构模型运行模型总结04二.eALS(element-wise ALS )模型模型选型 WR-MF模型虽然在隐反馈推荐中取得了较好的表现,然而,其模型也存在着以下不足: 对于隐反馈中的负反馈数据,WR-MF模型采用给与相同的置信度(权重)进行建模,然而,真实情况中,用户对于负反馈的偏好肯定是不一样的,统一权重的建模方式在某种程度上限制了模型的表现。 WR-MF模型采用ALS算法进行优化,只适用于离线情况下的推荐。对于在线推荐,我们需要重新训练整个模型,限制了模型的适用范围考虑到以上问题,He等人在WR-MF模型的基础上,提出了eALS(element-wise ALS )模型1,解决了

12、以上不足,进一步发展了隐反馈推荐。1 He X, Zhang H, Kan M Y, et al. Fast matrix factorization for online recommendation with implicit feedbackC/Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM, 2016: 549-558. 1.模型简介eALS介绍eALS模型解决了WR-MF模型上述的两个不足。eALS模

13、型根据物品流行度对缺失数据(负反馈)进行加权,这比统一权重假设更有效和灵活。然而,这种不均匀的加权在学习模型时提出了效率挑战。为了解决这个问题,我们专门设计了一种基于元素交替最小二乘(eALS)的新学习算法。优化具有可变加权缺失数据的MF模型。我们利用这种高效优化算法,然后无缝地设计增量更新策略,在给定新反馈的情况下立即更新模型,使得其可以同时应用于在线和离线环境中,是目前基于矩阵分解方法中的最优模型。 1.模型简介模型结构 2.模型结构 2.模型结构流行度加权许多Web 2.0系统的在其推荐界面倾向于展示其网站的热门项目。在所有其他因素相同的情况下,一般来说,用户更容易了解其热门项目,因此我

14、们可以合理地认为用户对热门项目的错过更可能代表用户对于该物品没有兴趣。为了解释这种现象,我们根据物品的受欢迎程度对ci进行参数化计算: 2.模型结构更新过程 2.模型结构在线更新当离线训练好的模型部署到实际环境中,会不断的出现新的用户、物品以及交互。eALS提出了一种增量更新的策略,即在原有模型的基础上,对于新的信息进行单独的更新 2.模型结构数据集我们在Yelp和Amazon数据集上进行了实验。Yelp是美国最大点评网站。我们使用其在2015年举办的Yelp Challenge比赛中公开的数据集(/dataset challenge)。Amazon则是美国最大的在线购物网站,我们使用的是其电

15、影观看记录数据集(/data/web-Amazon-links.html)。对于其中的评分项,我们将其分数全部置1,代表用户与该物品发生过交互。其数据集统计信息如下:DatesetReviewItemUserSparsityYelp731,67125,81525,67799.89%Amazon5,020,70575,389117,17699.94% 3.模型运行更新模型的缓存矩阵更新代码(/hexiangnan/sigir16-eals)更新用户和物品矩阵 3.模型运行结果分析:作者在Amazon和Yelp数据集上进行了实验。从上图可以发现,随着模型迭代次数的增加,模型的效果野越来越好,其中eALS模型的效果在二份数据集上一直优于其他模型。 3.模型运行从上图可以发现,随着潜在特征向量维度的增加,模型的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论